Free, Trial чи Pro: як вибрати правильний план DijiFlow (і що входить до кожного)
Порівняйте плани Free, Trial і Pro застосунку DijiFlow Dictate. Дізнайтеся точно, що входить до кожного рівня, щоб об...
У вашому кошику %itemCount%.Разом %total%
Як DijiFlow Dictate перетворює ваш голос на текст повністю на вашому пристрої, використовуючи Whisper, CoreML і Apple Silicon. Пояснено простою мовою.
Більшість диктувань відчувається як магія, поки ви не поставите очевидне питання: куди насправді дівається мій голос? З DijiFlow Dictate чесна відповідь — нікуди. Ви говорите, текст з'являється біля курсора, і жодне слово не мандрує до сервера. Без облікового запису, без завантаження в мережу, без телеметрії. Це не обіцянка приватності, доточена наприкінці, — вона випливає з того, як побудовано застосунок.
Цю роботу роблять три добре зрозумілі частини: Whisper — відкрита мовленнєва модель, що слухає; CoreML — фреймворк, що ефективно виконує її на Mac; та Apple Silicon — чип, завдяки якому це відчувається миттєвим. Жодних попередніх знань не потрібно — ось кожна з них простими словами.
У серці DijiFlow Dictate — Whisper, родина моделей розпізнавання мовлення з відкритим кодом від OpenAI. Мовленнєва модель — це, простими словами, дуже великий зіставлювач шаблонів, навчений на величезних обсягах аудіо в парі з його транскриптом. Із цих даних вона вчиться, як звуки, що їх видають люди, узгоджуються зі словами, які вони мають на увазі, — попри акценти, фоновий шум і природні паузи реального мовлення.
Коли ви диктуєте, Whisper передбачає найімовірнішу послідовність слів за аудіо з вашого мікрофона, і робить це справді добре. На чіткому мовленні вона сягає близько 98% точності, а найспроможніша версія, Whisper large-v3, дає раду з понад 90+ мовами. Оскільки вона зчитує контекст, а не зіставляє по одному слову, вона дає раду з тим безладом, яким люди насправді говорять.
Ось частина, що дивує людей: застосунок та інтелект — це два різні файли. Сам DijiFlow Dictate крихітний — близько 12 MB. Мовленнєві моделі Whisper — це важка частина, що займає приблизно від 300 MB до 6 GB залежно від того, яку ви оберете. Більші моделі загалом точніші на складному аудіо, але вимагають більше від вашого обладнання, тож ви обираєте баланс швидкості та точності, що вам пасує.
Ви завантажуєте модель один раз; після цього транскрибуванню взагалі не потрібен інтернет. Саме цей одноразовий крок і є причиною, чому ваш голос може лишатися на вашій машині.
Мовленнєва модель корисна, лише якщо вона працює швидко й не висаджує батарею. Це робота CoreML — фреймворку Apple для виконання моделей машинного навчання на її пристроях. Уявіть його як перекладача й диспетчера руху: він бере модель на кшталт Whisper і визначає, як виконати її, використовуючи найпридатніші частини вашого обладнання.
DijiFlow Dictate використовує WhisperKit — середовище виконання з відкритим кодом, що компілює Whisper для роботи через CoreML. Це означає, що модель оптимізовано саме під обладнання Apple, а не виконується як універсальний, повільніший код, тож диктування встигає за природним мовленням, лишаючись легким для системних ресурсів. І все це відбувається локально — CoreML не є хмарним сервісом. Це частина операційної системи, що дає застосункам змогу виконувати інтелектуальні функції приватно й офлайн.
Остання частина — це обладнання. На сучасних Mac це означає Apple Silicon — чипи серії M у машинах, що працюють на macOS 14 чи новіших версіях. Ці чипи містять виділений Neural Engine — ділянку кремнію, створену спеціально для того, щоб виконувати моделі машинного навчання швидко й із дуже малою потужністю, а коли потрібна додаткова сила, доступний GPU через Metal.
Ви нічого з цього не налаштовуєте. CoreML автоматично розподіляє роботу між потрібним обладнанням; ви просто говорите, а чип дає цьому раду в реальному часі. Це і є тиха перевага задуму «на пристрої»: той самий кремній, що робить ваш Mac чуйним, і робить приватне диктування практичним.
Розставте три частини по порядку — і подорож туди й назад виявиться короткою та цілком локальною.
Аудіо з вашого мікрофона фіксується на пристрої, ніколи нікуди не транслюючись.
Модель перетворює звук на слова просто там, на Apple Silicon, у реальному часі.
Ваші слова з'являються в тому застосунку, де ви вже працюєте. Нічого не надсилається геть, тож немає чому витікати.
Ключовий висновок
Модель живе на вашій машині, тож транскрибування — це просто локальне обчислення; у ланцюжку немає сервера, що зберігав би, перехоплював чи тихо утримував ваш голос.
Більшість голосових інструментів — це хмарні сервіси, що носять іконку застосунку: щоразу їм потрібні з'єднання й обліковий запис, бо модель, яка вас розуміє, живе на чужому обладнанні. DijiFlow Dictate перевертає це — ви встановлюєте один раз, і робота переходить на ваш чип.
| Як він поводиться | DijiFlow (на пристрої) | Хмарне диктування |
|---|---|---|
| Працює після одноразового завантаження | ✓ | ✗ |
| Транскрибує без інтернету | ✓ | ✗ |
| Обліковий запис не потрібен | ✓ | ✗ |
| Аудіо залишається на вашому пристрої | ✓ | ✗ |
Той самий підхід «на пристрої» поширюється на Windows 10 та 11, де DijiFlow Dictate працює на GPU від AMD, Intel та NVIDIA. Обладнанню NVIDIA потрібні CUDA та актуальний драйвер, але принцип ідентичний: ваше мовлення транскрибується локально, і нічого не надсилається геть.
Тут не відбувається нічого екзотичного. DijiFlow Dictate побудовано на відкритій, добре зрозумілій технології — Whisper для мовленнєвої моделі, WhisperKit та CoreML для середовища виконання й Apple Silicon для обладнання. Рішення, яке має значення, — тримати все це на вашому пристрої, тож ви отримуєте зручність сучасного диктування, ніколи нікому не віддаючи свій голос, — на рівнях Free, Trial та Pro.
Якщо ви радше відчуєте це, ніж читатимете про це, ви можете спробувати приватне диктування на пристрої безкоштовно протягом 30 днів на плані Pro.
Приватне перетворення голосу на текст, 100% на пристрої, 90+ мовами — безкоштовно назавжди, а Pro, коли потрібно більше.