The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

Технология за DijiFlow: Whisper, CoreML и Apple Silicon, объяснённые простыми словами

Как DijiFlow Dictate превращает ваш голос в текст полностью на вашем устройстве, используя Whisper, CoreML и Apple Silicon. Объяснено простым языком.

Большинство диктовок кажется волшебством, пока не зададите очевидный вопрос: куда на самом деле уходит мой голос? С DijiFlow Dictate честный ответ — никуда. Вы говорите, текст появляется у курсора, и ни одно слово не отправляется на сервер. Ни аккаунта, ни загрузки, ни телеметрии. Это не обещание конфиденциальности, прикрученное в конце, — оно вытекает из того, как устроено приложение.

За работой стоят три хорошо понятных части: Whisper — открытая речевая модель, которая слушает; CoreML — фреймворк, который эффективно запускает её на Mac; и Apple Silicon — чип, благодаря которому всё кажется мгновенным. Предварительных знаний не нужно — вот каждая из них простыми словами.

  • ~12 MB
    загрузка приложения
  • 300 MB–6 GB
    речевая модель, загружается один раз
  • Neural Engine
    где на самом деле идёт работа

Whisper: превращение звука в слова

В сердце DijiFlow Dictate — Whisper, семейство речевых моделей с открытым исходным кодом от OpenAI. Речевая модель — это, простыми словами, очень большой сопоставитель закономерностей, обученный на огромных объёмах звука в паре с его расшифровкой. Из этих данных она узнаёт, как звуки, которые издают люди, соотносятся со словами, которые они имеют в виду, — сквозь акценты, фоновый шум и естественные паузы настоящей речи.

Когда вы диктуете, Whisper предсказывает наиболее вероятную последовательность слов по звуку с вашего микрофона, и делает это по-настоящему хорошо. На чёткой речи она достигает около 98% точности, а самая мощная версия, Whisper large-v3, справляется с 90+ языками. Поскольку она читает контекст, а не сопоставляет по одному слову за раз, она справляется с тем беспорядочным образом, каким люди на самом деле говорят.

Почему модель — отдельная загрузка

Вот часть, которая удивляет: приложение и интеллект — это два разных файла. Сам DijiFlow Dictate крошечный — около 12 MB. Речевые модели Whisper — тяжёлая часть, от примерно 300 MB до 6 GB в зависимости от выбора. Более крупные модели обычно точнее на трудном звуке, но больше требуют от оборудования, так что вы выбираете баланс скорости и точности, который вам подходит.

Модель загружается один раз; после этого расшифровке вообще не нужен интернет. Этот единственный шаг — ровно та причина, по которой ваш голос может оставаться на компьютере.

CoreML: эффективный запуск модели

Речевая модель полезна, только если работает быстро, не сажая батарею. Это задача CoreML, фреймворка Apple для запуска моделей машинного обучения на её устройствах. Считайте его переводчиком и регулировщиком: он берёт модель вроде Whisper и определяет, как запустить её на наиболее подходящих частях вашего оборудования.

DijiFlow Dictate использует WhisperKit, среду выполнения с открытым исходным кодом, которая компилирует Whisper для работы через CoreML. Это значит, что модель оптимизирована именно под оборудование Apple, а не работает как универсальный, более медленный код, — так что диктовка поспевает за естественной речью, оставаясь лёгкой для системных ресурсов. И всё это происходит локально — CoreML не облачный сервис. Это часть операционной системы, которая позволяет приложениям выполнять умные функции конфиденциально и офлайн.

Apple Silicon: чип, который делает это мгновенным

Последняя часть — оборудование. На современных Mac это Apple Silicon — чипы серии M в компьютерах под управлением macOS 14 или новее. В этих чипах есть выделенный Neural Engine — участок кремния, созданный именно для того, чтобы запускать модели машинного обучения быстро и с очень малым энергопотреблением, при этом GPU доступен через Metal, когда нужна дополнительная мощность.

Вы ничего из этого не настраиваете. CoreML сам распределяет работу по нужному оборудованию; вы просто говорите, а чип справляется в реальном времени. В этом тихое преимущество устройства на устройстве: тот же кремний, что делает ваш Mac отзывчивым, делает практичной и конфиденциальную диктовку.

Весь конвейер, от начала до конца

Расставьте три части по порядку — и путь короток, и целиком локален.

  1. Вы говорите

    Звук с вашего микрофона захватывается на устройстве, никуда не передаётся потоком.

  2. Whisper работает через CoreML на Neural Engine

    Модель превращает звук в слова прямо там, на Apple Silicon, в реальном времени.

  3. Текст появляется у курсора

    Ваши слова появляются в том приложении, где вы уже находитесь. Ничего не отправляется наружу, поэтому нечему утекать.

Главное

Модель живёт на вашем компьютере, поэтому расшифровка — это просто локальное вычисление; в цепочке нет сервера, который хранил бы, перехватывал или незаметно удерживал ваш голос.

Загрузите один раз — и навсегда офлайн

Большинство голосовых инструментов — облачные сервисы в обличье иконки приложения: им каждый раз нужны подключение и аккаунт, потому что модель, которая вас понимает, живёт на чужом оборудовании. DijiFlow Dictate переворачивает это — вы устанавливаете один раз, и работа переходит на ваш чип.

Как это работаетDijiFlow (на устройстве)Облачная диктовка
Работает после одной загрузки
Расшифровывает без интернета
Аккаунт не требуется
Звук остаётся на вашем устройстве

И за пределами Mac

Тот же подход на устройстве распространяется на Windows 10 и 11, где DijiFlow Dictate работает на GPU AMD, Intel и NVIDIA. Оборудованию NVIDIA нужны CUDA и актуальный драйвер, но принцип тот же: ваша речь расшифровывается локально, и ничего не отправляется наружу.

Никакого фокуса, просто хорошая инженерия

Здесь не происходит ничего экзотического. DijiFlow Dictate построен на открытой, хорошо понятной технологии — Whisper для речевой модели, WhisperKit и CoreML для среды выполнения и Apple Silicon для оборудования. Решение, которое имеет значение, — держать всё это на вашем устройстве, чтобы вы получали удобство современной диктовки, ни разу не передав свой голос кому-либо, — на Free, Trial и Pro.

Если предпочитаете почувствовать, а не читать об этом, вы можете попробовать конфиденциальную диктовку на устройстве бесплатно в течение 30 дней на тарифе Pro.

DijiFlow DictateDijiFlow Dictate

Команда DijiFlow Dictate

Заметки о приватной диктовке прямо на устройстве и о том, как успевать больше с помощью голоса.

Начните диктовать, не касаясь клавиатуры уже сегодня.

Приватный перевод речи в текст на 90+ языках, на 100% на вашем устройстве — бесплатно навсегда, а Pro, когда нужно больше.