The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

Tehnologia din spatele DijiFlow: Whisper, CoreML și Apple Silicon, explicate simplu

Cum transformă DijiFlow Dictate vocea ta în text în întregime pe dispozitivul tău, folosind Whisper, CoreML și Apple Silicon. Explicat în cuvinte simple.

Cea mai mare parte a dictării pare magie până când pui întrebarea evidentă: unde ajunge de fapt vocea mea? Cu DijiFlow Dictate, răspunsul onest este nicăieri. Vorbești, textul apare la cursor și niciun cuvânt nu călătorește către un server. Fără cont, fără încărcare, fără telemetrie. Aceasta nu este o promisiune de confidențialitate adăugată la final — decurge din felul în care este construită aplicația.

Trei piese bine înțelese o fac să funcționeze: Whisper, modelul de vorbire deschis care ascultă; CoreML, cadrul care îl rulează eficient pe un Mac; și Apple Silicon, cipul care îl face să pară instantaneu. Nu sunt necesare cunoștințe prealabile — iată fiecare în termeni simpli.

  • ~12 MB
    descărcarea aplicației
  • 300 MB–6 GB
    modelul de vorbire, descărcat o singură dată
  • Neural Engine
    unde rulează de fapt munca

Whisper: transformarea sunetului în cuvinte

În inima DijiFlow Dictate se află Whisper, o familie de modele open-source de recunoaștere a vorbirii de la OpenAI. Un model de vorbire este, în termeni simpli, un foarte mare potrivitor de tipare antrenat pe cantități enorme de audio asociat cu transcrierea sa. Din acele date învață cum se aliniază sunetele pe care le scot oamenii cu cuvintele pe care le au în minte — peste accente, zgomot de fond și pauzele firești ale vorbirii reale.

Când dictezi, Whisper prezice cea mai probabilă secvență de cuvinte din sunetul microfonului tău și se pricepe cu adevărat la asta. Pe vorbire clară atinge în jur de 98% acuratețe, iar versiunea cea mai capabilă, Whisper large-v3, gestionează până la 90+ limbi. Fiindcă citește contextul, în loc să potrivească un cuvânt o dată, face față felului dezordonat în care vorbesc de fapt oamenii.

De ce modelul este o descărcare separată

Aceasta este partea care surprinde oamenii: aplicația și inteligența sunt două fișiere diferite. DijiFlow Dictate în sine este minuscul — aproximativ 12 MB. Modelele de vorbire Whisper sunt partea grea, variind între circa 300 MB și 6 GB, în funcție de cel pe care îl alegi. Modelele mai mari sunt în general mai exacte pe audio dificil, dar cer mai mult de la hardware-ul tău, așa că alegi echilibrul de viteză și acuratețe care ți se potrivește.

Descarci un model o singură dată; după aceea, transcrierea nu are nevoie deloc de internet. Acel pas unic este exact motivul pentru care vocea ta poate rămâne pe mașina ta.

CoreML: rularea modelului în mod eficient

Un model de vorbire este util doar dacă rulează rapid fără să-ți consume bateria. Aceasta este sarcina lui CoreML, cadrul Apple pentru rularea modelelor de învățare automată pe dispozitivele sale. Gândește-te la el ca la un traducător și un dirijor de trafic: ia un model precum Whisper și află cum să-l ruleze folosind cele mai potrivite componente ale hardware-ului tău.

DijiFlow Dictate folosește WhisperKit, un mediu de execuție open-source care compilează Whisper pentru a rula prin CoreML. Asta înseamnă că modelul este optimizat anume pentru hardware-ul Apple, în loc să ruleze ca un cod generic și mai lent, așa că dictarea ține pasul cu vorbirea naturală rămânând în același timp ușoară pentru resursele sistemului. Și totul se petrece local — CoreML nu este un serviciu din cloud. Este parte din sistemul de operare care permite aplicațiilor să ruleze funcții inteligente în mod privat și offline.

Apple Silicon: cipul care îl face instantaneu

Ultima piesă este hardware-ul. Pe Mac-urile moderne, asta înseamnă Apple Silicon — cipurile din seria M din mașinile care rulează macOS 14 sau mai recent. Aceste cipuri includ un Neural Engine dedicat, o secțiune de siliciu construită anume pentru a rula modele de învățare automată rapid și cu foarte puțină energie, cu GPU-ul disponibil prin Metal atunci când ajută o forță suplimentară.

Nu configurezi nimic din toate astea. CoreML distribuie automat munca pe hardware-ul potrivit; tu doar vorbești, iar cipul se ocupă de ea în timp real. Acesta este avantajul discret al designului pe dispozitiv: același siliciu care face Mac-ul tău să pară prompt este cel care face dictarea privată practică.

Întregul flux, de la cap la coadă

Pune cele trei piese în ordine și drumul dus-întors este scurt — și în întregime local.

  1. Vorbești

    Sunetul de la microfonul tău este captat pe dispozitiv, niciodată transmis în flux undeva.

  2. Whisper rulează prin CoreML pe Neural Engine

    Modelul transformă sunetul în cuvinte chiar acolo, pe Apple Silicon, în timp real.

  3. Textul ajunge la cursor

    Cuvintele tale apar în orice aplicație te afli deja. Nimic nu este trimis în altă parte, deci nu există nimic de pierdut.

Ideea esențială

Modelul trăiește pe mașina ta, așa că transcrierea este doar un calcul local — nu există niciun server în lanț care să stocheze, să intercepteze sau să păstreze pe tăcute vocea ta.

Descarcă o dată, apoi offline pentru totdeauna

Majoritatea instrumentelor de voce sunt servicii din cloud purtând o pictogramă de aplicație: au nevoie de o conexiune și de un cont de fiecare dată, fiindcă modelul care te înțelege trăiește pe hardware-ul altcuiva. DijiFlow Dictate răstoarnă asta — instalezi o singură dată, iar munca se mută pe cipul tău.

Cum se comportăDijiFlow (pe dispozitiv)Dictare în cloud
Funcționează după o descărcare unică
Transcrie fără internet
Niciun cont necesar
Sunetul rămâne pe dispozitivul tău

Și dincolo de Mac

Aceeași abordare pe dispozitiv se extinde la Windows 10 și 11, unde DijiFlow Dictate rulează pe plăci grafice AMD, Intel și NVIDIA. Hardware-ul NVIDIA are nevoie de CUDA și de un driver actual, dar principiul este identic: vorbirea ta este transcrisă local, iar nimic nu este trimis în altă parte.

Niciun truc, doar inginerie bună

Nu se întâmplă nimic exotic aici. DijiFlow Dictate este construit pe tehnologie deschisă și bine înțeleasă — Whisper pentru modelul de vorbire, WhisperKit și CoreML pentru mediul de execuție, și Apple Silicon pentru hardware. Decizia care contează este să păstrezi totul pe dispozitivul tău, ca să obții comoditatea dictării moderne fără să predai vreodată vocea ta cuiva, pe Free, Trial și Pro.

Dacă ai prefera să o simți decât să citești despre ea, poți încerca gratuit dictarea privată, pe dispozitiv, timp de 30 de zile pe planul Pro.

DijiFlow DictateDijiFlow Dictate

Echipa DijiFlow Dictate

Note despre dictarea privată, pe dispozitiv, și despre cum să faceți mai multe folosindu-vă vocea.

Începeți să dictați fără să atingeți tastatura astăzi.

Voce în text privată, 100% pe dispozitiv, în 90+ de limbi — gratuit pentru totdeauna, Pro când aveți nevoie de mai mult.