The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

La tecnologia dietro DijiFlow: Whisper, CoreML e Apple Silicon, spiegati in modo semplice

Come DijiFlow Dictate trasforma la tua voce in testo interamente sul tuo dispositivo, usando Whisper, CoreML e Apple Silicon. Spiegato in parole semplici.

La maggior parte delle dettature sembra magia finché non ti fai la domanda ovvia: dove va davvero la mia voce? Con DijiFlow Dictate, la risposta onesta è da nessuna parte. Parli, il testo compare al cursore, e non una parola viaggia verso un server. Nessun account, nessun caricamento, nessuna telemetria. Non è una promessa di privacy aggiunta alla fine — discende da come l'app è costruita.

Tre componenti ben compresi la fanno funzionare: Whisper, il modello vocale aperto che fa l'ascolto; CoreML, il framework che lo fa girare in modo efficiente su un Mac; e Apple Silicon, il chip che lo fa sembrare istantaneo. Non serve alcuna conoscenza pregressa — ecco ciascuno in parole semplici.

  • ~12 MB
    download dell'app
  • 300 MB–6 GB
    modello vocale, scaricato una volta sola
  • Neural Engine
    dove il lavoro gira davvero

Whisper: trasformare il suono in parole

Al cuore di DijiFlow Dictate c'è Whisper, una famiglia di modelli open-source per il riconoscimento vocale di OpenAI. Un modello vocale è, in parole semplici, un enorme cercatore di schemi addestrato su quantità enormi di audio abbinate alla relativa trascrizione. Da quei dati impara come i suoni che le persone producono corrispondono alle parole che intendono — tra accenti, rumore di fondo e le pause naturali del parlato reale.

Quando detti, Whisper prevede la sequenza di parole più probabile a partire dall'audio del tuo microfono, ed è davvero bravo a farlo. Su parlato chiaro raggiunge circa il 98% di precisione, e la versione più potente, Whisper large-v3, gestisce fino a 90+ lingue. Poiché legge il contesto invece di abbinare una parola alla volta, regge il modo disordinato in cui le persone parlano davvero.

Perché il modello è un download separato

Questa è la parte che sorprende: l'app e l'intelligenza sono due file diversi. DijiFlow Dictate in sé è minuscolo — circa 12 MB. I modelli vocali Whisper sono la parte pesante, da circa 300 MB a 6 GB a seconda di quale scegli. I modelli più grandi sono in genere più precisi su audio difficili ma chiedono di più al tuo hardware, quindi scegli l'equilibrio tra velocità e precisione che fa per te.

Scarichi un modello una volta sola; dopodiché la trascrizione non ha bisogno di alcuna connessione. Quel passaggio unico è esattamente il motivo per cui la tua voce può restare sulla tua macchina.

CoreML: far girare il modello nel modo efficiente

Un modello vocale è utile solo se gira in fretta senza scaricare la batteria. È il compito di CoreML, il framework di Apple per far girare modelli di machine learning sui suoi dispositivi. Pensalo come un traduttore e un vigile del traffico: prende un modello come Whisper e capisce come farlo girare usando le parti più adatte del tuo hardware.

DijiFlow Dictate usa WhisperKit, un runtime open-source che compila Whisper per farlo girare attraverso CoreML. Questo significa che il modello è ottimizzato specificamente per l'hardware Apple invece di girare come codice generico e più lento, così la dettatura tiene il passo del parlato naturale restando leggera sulle risorse di sistema. E tutto avviene in locale — CoreML non è un servizio cloud. È parte del sistema operativo che permette alle app di eseguire funzioni intelligenti in privato e offline.

Apple Silicon: il chip che lo rende istantaneo

L'ultimo componente è l'hardware. Sui Mac moderni significa Apple Silicon — i chip della serie M nelle macchine che girano su macOS 14 o versioni successive. Questi chip includono un Neural Engine dedicato, una sezione di silicio costruita appositamente per far girare i modelli di machine learning in fretta e con pochissima energia, con la GPU disponibile tramite Metal quando serve potenza extra.

Di tutto questo non configuri nulla. CoreML distribuisce il lavoro sull'hardware giusto in automatico; tu parli e basta, e il chip lo gestisce in tempo reale. È il vantaggio silenzioso della progettazione on-device: lo stesso silicio che rende reattivo il tuo Mac è ciò che rende pratica la dettatura privata.

L'intera pipeline, dall'inizio alla fine

Metti i tre componenti in ordine e il giro completo è breve — e interamente locale.

  1. Parli

    L'audio dal tuo microfono viene catturato sul dispositivo, mai trasmesso in streaming da nessuna parte.

  2. Whisper gira tramite CoreML sul Neural Engine

    Il modello trasforma il suono in parole proprio lì su Apple Silicon, in tempo reale.

  3. Il testo arriva al cursore

    Le tue parole compaiono nell'app in cui ti trovi già. Niente viene inviato altrove, quindi non c'è nulla da far trapelare.

In sintesi

Il modello vive sulla tua macchina, quindi la trascrizione è solo calcolo locale — non c'è alcun server nel circuito a memorizzare, intercettare o conservare in silenzio la tua voce.

Scarica una volta, poi offline per sempre

La maggior parte degli strumenti vocali sono servizi cloud travestiti da icona di app: hanno bisogno di una connessione e di un account ogni volta, perché il modello che ti comprende vive sull'hardware di qualcun altro. DijiFlow Dictate ribalta tutto — installi una volta, e il lavoro si sposta sul tuo chip.

Come si comportaDijiFlow (on-device)Dettatura cloud
Funziona dopo un download una tantum
Trascrive senza internet
Nessun account richiesto
L'audio resta sul tuo dispositivo

E oltre il Mac

Lo stesso approccio on-device si estende a Windows 10 e 11, dove DijiFlow Dictate gira su GPU AMD, Intel e NVIDIA. L'hardware NVIDIA richiede CUDA e un driver aggiornato, ma il principio è identico: il tuo parlato viene trascritto in locale e niente viene inviato altrove.

Nessun trucco, solo buona ingegneria

Qui non sta succedendo niente di esotico. DijiFlow Dictate è costruito su tecnologia aperta e ben compresa — Whisper per il modello vocale, WhisperKit e CoreML per il runtime, e Apple Silicon per l'hardware. La decisione che conta è tenere tutto sul tuo dispositivo, così ottieni la comodità della dettatura moderna senza mai consegnare la tua voce a nessuno, su Free, Trial e Pro.

Se preferisci provarlo piuttosto che leggerne, puoi provare la dettatura privata on-device gratis per 30 giorni nel piano Pro.

DijiFlow DictateDijiFlow Dictate

Il team di DijiFlow Dictate

Appunti sulla dettatura privata e in locale, e su come fare di più con la voce.

Inizia a dettare a mani libere oggi stesso.

Voce-testo privata, 100% in locale, in 90+ lingue — gratis per sempre, Pro quando serve di più.