Free, Trial или Pro: как выбрать подходящий план DijiFlow (и что входит в каждый)
Сравните планы Free, Trial и Pro приложения DijiFlow Dictate. Узнайте точно, что входит в каждый уровень, чтобы выбра...
У вас в корзине %itemCount%.Итого %total%
Как DijiFlow Dictate превращает ваш голос в текст полностью на вашем устройстве, используя Whisper, CoreML и Apple Silicon. Объяснено простым языком.
Большинство диктовок кажется волшебством, пока не зададите очевидный вопрос: куда на самом деле уходит мой голос? С DijiFlow Dictate честный ответ — никуда. Вы говорите, текст появляется у курсора, и ни одно слово не отправляется на сервер. Ни аккаунта, ни загрузки, ни телеметрии. Это не обещание конфиденциальности, прикрученное в конце, — оно вытекает из того, как устроено приложение.
За работой стоят три хорошо понятных части: Whisper — открытая речевая модель, которая слушает; CoreML — фреймворк, который эффективно запускает её на Mac; и Apple Silicon — чип, благодаря которому всё кажется мгновенным. Предварительных знаний не нужно — вот каждая из них простыми словами.
В сердце DijiFlow Dictate — Whisper, семейство речевых моделей с открытым исходным кодом от OpenAI. Речевая модель — это, простыми словами, очень большой сопоставитель закономерностей, обученный на огромных объёмах звука в паре с его расшифровкой. Из этих данных она узнаёт, как звуки, которые издают люди, соотносятся со словами, которые они имеют в виду, — сквозь акценты, фоновый шум и естественные паузы настоящей речи.
Когда вы диктуете, Whisper предсказывает наиболее вероятную последовательность слов по звуку с вашего микрофона, и делает это по-настоящему хорошо. На чёткой речи она достигает около 98% точности, а самая мощная версия, Whisper large-v3, справляется с 90+ языками. Поскольку она читает контекст, а не сопоставляет по одному слову за раз, она справляется с тем беспорядочным образом, каким люди на самом деле говорят.
Вот часть, которая удивляет: приложение и интеллект — это два разных файла. Сам DijiFlow Dictate крошечный — около 12 MB. Речевые модели Whisper — тяжёлая часть, от примерно 300 MB до 6 GB в зависимости от выбора. Более крупные модели обычно точнее на трудном звуке, но больше требуют от оборудования, так что вы выбираете баланс скорости и точности, который вам подходит.
Модель загружается один раз; после этого расшифровке вообще не нужен интернет. Этот единственный шаг — ровно та причина, по которой ваш голос может оставаться на компьютере.
Речевая модель полезна, только если работает быстро, не сажая батарею. Это задача CoreML, фреймворка Apple для запуска моделей машинного обучения на её устройствах. Считайте его переводчиком и регулировщиком: он берёт модель вроде Whisper и определяет, как запустить её на наиболее подходящих частях вашего оборудования.
DijiFlow Dictate использует WhisperKit, среду выполнения с открытым исходным кодом, которая компилирует Whisper для работы через CoreML. Это значит, что модель оптимизирована именно под оборудование Apple, а не работает как универсальный, более медленный код, — так что диктовка поспевает за естественной речью, оставаясь лёгкой для системных ресурсов. И всё это происходит локально — CoreML не облачный сервис. Это часть операционной системы, которая позволяет приложениям выполнять умные функции конфиденциально и офлайн.
Последняя часть — оборудование. На современных Mac это Apple Silicon — чипы серии M в компьютерах под управлением macOS 14 или новее. В этих чипах есть выделенный Neural Engine — участок кремния, созданный именно для того, чтобы запускать модели машинного обучения быстро и с очень малым энергопотреблением, при этом GPU доступен через Metal, когда нужна дополнительная мощность.
Вы ничего из этого не настраиваете. CoreML сам распределяет работу по нужному оборудованию; вы просто говорите, а чип справляется в реальном времени. В этом тихое преимущество устройства на устройстве: тот же кремний, что делает ваш Mac отзывчивым, делает практичной и конфиденциальную диктовку.
Расставьте три части по порядку — и путь короток, и целиком локален.
Звук с вашего микрофона захватывается на устройстве, никуда не передаётся потоком.
Модель превращает звук в слова прямо там, на Apple Silicon, в реальном времени.
Ваши слова появляются в том приложении, где вы уже находитесь. Ничего не отправляется наружу, поэтому нечему утекать.
Главное
Модель живёт на вашем компьютере, поэтому расшифровка — это просто локальное вычисление; в цепочке нет сервера, который хранил бы, перехватывал или незаметно удерживал ваш голос.
Большинство голосовых инструментов — облачные сервисы в обличье иконки приложения: им каждый раз нужны подключение и аккаунт, потому что модель, которая вас понимает, живёт на чужом оборудовании. DijiFlow Dictate переворачивает это — вы устанавливаете один раз, и работа переходит на ваш чип.
| Как это работает | DijiFlow (на устройстве) | Облачная диктовка |
|---|---|---|
| Работает после одной загрузки | ✓ | ✗ |
| Расшифровывает без интернета | ✓ | ✗ |
| Аккаунт не требуется | ✓ | ✗ |
| Звук остаётся на вашем устройстве | ✓ | ✗ |
Тот же подход на устройстве распространяется на Windows 10 и 11, где DijiFlow Dictate работает на GPU AMD, Intel и NVIDIA. Оборудованию NVIDIA нужны CUDA и актуальный драйвер, но принцип тот же: ваша речь расшифровывается локально, и ничего не отправляется наружу.
Здесь не происходит ничего экзотического. DijiFlow Dictate построен на открытой, хорошо понятной технологии — Whisper для речевой модели, WhisperKit и CoreML для среды выполнения и Apple Silicon для оборудования. Решение, которое имеет значение, — держать всё это на вашем устройстве, чтобы вы получали удобство современной диктовки, ни разу не передав свой голос кому-либо, — на Free, Trial и Pro.
Если предпочитаете почувствовать, а не читать об этом, вы можете попробовать конфиденциальную диктовку на устройстве бесплатно в течение 30 дней на тарифе Pro.
Приватный перевод речи в текст на 90+ языках, на 100% на вашем устройстве — бесплатно навсегда, а Pro, когда нужно больше.