The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

Технологія за DijiFlow: Whisper, CoreML і Apple Silicon, пояснені простими словами

Як DijiFlow Dictate перетворює ваш голос на текст повністю на вашому пристрої, використовуючи Whisper, CoreML і Apple Silicon. Пояснено простою мовою.

Більшість диктувань відчувається як магія, поки ви не поставите очевидне питання: куди насправді дівається мій голос? З DijiFlow Dictate чесна відповідь — нікуди. Ви говорите, текст з'являється біля курсора, і жодне слово не мандрує до сервера. Без облікового запису, без завантаження в мережу, без телеметрії. Це не обіцянка приватності, доточена наприкінці, — вона випливає з того, як побудовано застосунок.

Цю роботу роблять три добре зрозумілі частини: Whisper — відкрита мовленнєва модель, що слухає; CoreML — фреймворк, що ефективно виконує її на Mac; та Apple Silicon — чип, завдяки якому це відчувається миттєвим. Жодних попередніх знань не потрібно — ось кожна з них простими словами.

  • ~12 MB
    завантаження застосунку
  • 300 MB–6 GB
    мовленнєва модель, завантажується один раз
  • Neural Engine
    де насправді виконується робота

Whisper: перетворення звуку на слова

У серці DijiFlow Dictate — Whisper, родина моделей розпізнавання мовлення з відкритим кодом від OpenAI. Мовленнєва модель — це, простими словами, дуже великий зіставлювач шаблонів, навчений на величезних обсягах аудіо в парі з його транскриптом. Із цих даних вона вчиться, як звуки, що їх видають люди, узгоджуються зі словами, які вони мають на увазі, — попри акценти, фоновий шум і природні паузи реального мовлення.

Коли ви диктуєте, Whisper передбачає найімовірнішу послідовність слів за аудіо з вашого мікрофона, і робить це справді добре. На чіткому мовленні вона сягає близько 98% точності, а найспроможніша версія, Whisper large-v3, дає раду з понад 90+ мовами. Оскільки вона зчитує контекст, а не зіставляє по одному слову, вона дає раду з тим безладом, яким люди насправді говорять.

Чому модель — окреме завантаження

Ось частина, що дивує людей: застосунок та інтелект — це два різні файли. Сам DijiFlow Dictate крихітний — близько 12 MB. Мовленнєві моделі Whisper — це важка частина, що займає приблизно від 300 MB до 6 GB залежно від того, яку ви оберете. Більші моделі загалом точніші на складному аудіо, але вимагають більше від вашого обладнання, тож ви обираєте баланс швидкості та точності, що вам пасує.

Ви завантажуєте модель один раз; після цього транскрибуванню взагалі не потрібен інтернет. Саме цей одноразовий крок і є причиною, чому ваш голос може лишатися на вашій машині.

CoreML: ефективний спосіб виконувати модель

Мовленнєва модель корисна, лише якщо вона працює швидко й не висаджує батарею. Це робота CoreML — фреймворку Apple для виконання моделей машинного навчання на її пристроях. Уявіть його як перекладача й диспетчера руху: він бере модель на кшталт Whisper і визначає, як виконати її, використовуючи найпридатніші частини вашого обладнання.

DijiFlow Dictate використовує WhisperKit — середовище виконання з відкритим кодом, що компілює Whisper для роботи через CoreML. Це означає, що модель оптимізовано саме під обладнання Apple, а не виконується як універсальний, повільніший код, тож диктування встигає за природним мовленням, лишаючись легким для системних ресурсів. І все це відбувається локально — CoreML не є хмарним сервісом. Це частина операційної системи, що дає застосункам змогу виконувати інтелектуальні функції приватно й офлайн.

Apple Silicon: чип, що робить це миттєвим

Остання частина — це обладнання. На сучасних Mac це означає Apple Silicon — чипи серії M у машинах, що працюють на macOS 14 чи новіших версіях. Ці чипи містять виділений Neural Engine — ділянку кремнію, створену спеціально для того, щоб виконувати моделі машинного навчання швидко й із дуже малою потужністю, а коли потрібна додаткова сила, доступний GPU через Metal.

Ви нічого з цього не налаштовуєте. CoreML автоматично розподіляє роботу між потрібним обладнанням; ви просто говорите, а чип дає цьому раду в реальному часі. Це і є тиха перевага задуму «на пристрої»: той самий кремній, що робить ваш Mac чуйним, і робить приватне диктування практичним.

Увесь конвеєр, від початку до кінця

Розставте три частини по порядку — і подорож туди й назад виявиться короткою та цілком локальною.

  1. Ви говорите

    Аудіо з вашого мікрофона фіксується на пристрої, ніколи нікуди не транслюючись.

  2. Whisper працює через CoreML на Neural Engine

    Модель перетворює звук на слова просто там, на Apple Silicon, у реальному часі.

  3. Текст опиняється біля курсора

    Ваші слова з'являються в тому застосунку, де ви вже працюєте. Нічого не надсилається геть, тож немає чому витікати.

Ключовий висновок

Модель живе на вашій машині, тож транскрибування — це просто локальне обчислення; у ланцюжку немає сервера, що зберігав би, перехоплював чи тихо утримував ваш голос.

Завантажте один раз — і офлайн назавжди

Більшість голосових інструментів — це хмарні сервіси, що носять іконку застосунку: щоразу їм потрібні з'єднання й обліковий запис, бо модель, яка вас розуміє, живе на чужому обладнанні. DijiFlow Dictate перевертає це — ви встановлюєте один раз, і робота переходить на ваш чип.

Як він поводитьсяDijiFlow (на пристрої)Хмарне диктування
Працює після одноразового завантаження
Транскрибує без інтернету
Обліковий запис не потрібен
Аудіо залишається на вашому пристрої

І поза межами Mac

Той самий підхід «на пристрої» поширюється на Windows 10 та 11, де DijiFlow Dictate працює на GPU від AMD, Intel та NVIDIA. Обладнанню NVIDIA потрібні CUDA та актуальний драйвер, але принцип ідентичний: ваше мовлення транскрибується локально, і нічого не надсилається геть.

Жодного трюку, лише добра інженерія

Тут не відбувається нічого екзотичного. DijiFlow Dictate побудовано на відкритій, добре зрозумілій технології — Whisper для мовленнєвої моделі, WhisperKit та CoreML для середовища виконання й Apple Silicon для обладнання. Рішення, яке має значення, — тримати все це на вашому пристрої, тож ви отримуєте зручність сучасного диктування, ніколи нікому не віддаючи свій голос, — на рівнях Free, Trial та Pro.

Якщо ви радше відчуєте це, ніж читатимете про це, ви можете спробувати приватне диктування на пристрої безкоштовно протягом 30 днів на плані Pro.

DijiFlow DictateDijiFlow Dictate

Команда DijiFlow Dictate

Нотатки про приватне диктування на пристрої та про те, як зробити більше за допомогою голосу.

Почніть диктувати без рук вже сьогодні.

Приватне перетворення голосу на текст, 100% на пристрої, 90+ мовами — безкоштовно назавжди, а Pro, коли потрібно більше.