The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon4 juni 20264 min read

Tekniken bakom DijiFlow: Whisper, CoreML och Apple Silicon, enkelt förklarat

Hur DijiFlow Dictate förvandlar din röst till text helt och hållet på din enhet, med hjälp av Whisper, CoreML och Apple Silicon. Förklarat i klartext.

De flesta dikteringar känns som magi tills du ställer den uppenbara frågan: vart tar min röst egentligen vägen? Med DijiFlow Dictate är det ärliga svaret ingenstans. Du talar, text dyker upp vid din markör, och inte ett ord färdas till en server. Inget konto, ingen uppladdning, ingen telemetri. Det är inget integritetslöfte påklistrat på slutet — det följer av hur appen är byggd.

Tre väl förstådda delar får det att fungera: Whisper, talmodellen med öppen källkod som lyssnar; CoreML, ramverket som kör den effektivt på en Mac; och Apple Silicon, chippet som får det att kännas omedelbart. Inga förkunskaper behövs — här är var och en i klartext.

~12 MB
nedladdning av appen
300 MB–6 GB
talmodell, nedladdad en gång
Neural Engine
där arbetet faktiskt körs

Whisper: att göra ljud till ord

I hjärtat av DijiFlow Dictate finns Whisper, en familj av taligenkänningsmodeller med öppen källkod från OpenAI. En talmodell är, i klartext, en mycket stor mönstermatchare tränad på enorma mängder ljud parat med dess transkription. Ur de data lär den sig hur ljuden människor gör hänger ihop med orden de menar — över brytningar, bakgrundsljud och de naturliga pauserna i verkligt tal.

När du dikterar förutsäger Whisper den mest sannolika ordföljden utifrån ljudet från din mikrofon, och den är genuint bra på det. Vid tydligt tal når den runt 98 % träffsäkerhet, och den mest kapabla versionen, Whisper large-v3, hanterar upp till 90+ språk. Eftersom den läser kontext snarare än matchar ett ord i taget klarar den det stökiga sätt som människor faktiskt talar på.

Varför modellen är en separat nedladdning

Det här är delen som överraskar folk: appen och intelligensen är två olika filer. DijiFlow Dictate i sig är pytteliten — runt 12 MB. Whisper-talmodellerna är den tunga delen, med en spännvidd från ungefär 300 MB till 6 GB beroende på vilken du väljer. Större modeller är i allmänhet mer träffsäkra på svårt ljud men ställer högre krav på din hårdvara, så du väljer den balans mellan fart och träffsäkerhet som passar dig.

Du laddar ner en modell en gång; därefter behöver transkriberingen inget internet alls. Just det engångssteget är precis varför din röst kan stanna på din maskin.

CoreML: att köra modellen på det effektiva sättet

En talmodell är bara användbar om den körs snabbt utan att tömma ditt batteri. Det är uppgiften för CoreML, Apples ramverk för att köra maskininlärningsmodeller på sina enheter. Tänk på det som en översättare och trafikledare: det tar en modell som Whisper och räknar ut hur den ska köras med hjälp av de lämpligaste delarna av din hårdvara.

DijiFlow Dictate använder WhisperKit, en körmiljö med öppen källkod som kompilerar Whisper för att köras via CoreML. Det betyder att modellen är optimerad specifikt för Apple-hårdvara i stället för att köras som generisk, långsammare kod, så att dikteringen håller jämna steg med naturligt tal samtidigt som den är lätt på systemresurserna. Och allt sker lokalt — CoreML är ingen molntjänst. Det är en del av operativsystemet som låter appar köra intelligenta funktioner privat och offline.

Apple Silicon: chippet som gör det omedelbart

Den sista delen är hårdvaran. På moderna Mac-datorer betyder det Apple Silicon — M-seriens chipp i maskiner som kör macOS 14 eller senare. De här chippen innehåller en dedikerad Neural Engine, ett stycke kisel byggt specifikt för att köra maskininlärningsmodeller snabbt och med väldigt lite ström, med GPU:n tillgänglig via Metal när lite extra krafter hjälper.

Du konfigurerar inget av detta. CoreML fördelar arbetet över rätt hårdvara automatiskt; du bara talar, och chippet sköter det i realtid. Det är den tysta fördelen med konstruktion på enheten: samma kisel som får din Mac att kännas följsam är det som gör privat diktering praktisk.

Hela kedjan, från början till slut

Sätt de tre delarna i ordning så är rundturen kort — och helt och hållet lokal.

Du talar
Ljudet från din mikrofon fångas på enheten, strömmas aldrig någonstans.
Whisper körs via CoreML på Neural Engine
Modellen gör om ljud till ord direkt där på Apple Silicon, i realtid.
Texten hamnar vid din markör
Dina ord dyker upp i vilken app du än redan befinner dig i. Ingenting skickas iväg, så det finns ingenting att läcka.

Det viktigaste

Modellen bor på din maskin, så transkribering är bara lokal beräkning — det finns ingen server i slingan som lagrar, avlyssnar eller tyst sparar din röst.

Ladda ner en gång, sedan offline för alltid

De flesta röstverktyg är molntjänster som bär en appikon: de behöver en uppkoppling och ett konto varje gång, eftersom modellen som förstår dig bor på någon annans hårdvara. DijiFlow Dictate vänder på det — du installerar en gång, och arbetet flyttar till ditt chipp.

Hur det beter sig	DijiFlow (på enheten)	Molndiktering
Fungerar efter en engångsnedladdning	✓	✗
Transkriberar utan internet	✓	✗
Inget konto krävs	✓	✗
Ljudet stannar på din enhet	✓	✗

Och bortom Mac:en

Samma tillvägagångssätt på enheten sträcker sig till Windows 10 och 11, där DijiFlow Dictate körs på GPU:er från AMD, Intel och NVIDIA. NVIDIA-hårdvara behöver CUDA och en aktuell drivrutin, men principen är identisk: ditt tal transkriberas lokalt, och ingenting skickas iväg.

Inget trick, bara god ingenjörskonst

Det händer ingenting märkvärdigt här. DijiFlow Dictate är byggt på öppen, väl förstådd teknik — Whisper för talmodellen, WhisperKit och CoreML för körmiljön och Apple Silicon för hårdvaran. Beslutet som spelar roll är att hålla allt av det på din enhet, så att du får bekvämligheten med modern diktering utan att någonsin lämna ifrån dig din röst till någon, över Gratis, Provperiod och Pro.

Om du hellre känner det än läser om det kan du prova privat diktering på enheten gratis i 30 dagar på Pro-planen.

DijiFlow Dictate-teamet

Tankar om privat diktering på din egen enhet och om att få mer gjort med rösten.

Föregående Diktering för skribenter och studenter: snabbare utkast, anteckningar och uppsatser Nästa Diktering för skribenter och studenter: snabbare utkast, anteckningar och uppsatser

Börja diktera handsfree redan idag.

Privat röst-till-text, 100% på din egen enhet, på 90+ språk — gratis för alltid, Pro när du behöver mer.

Skaffa DijiFlow Pro Ladda ner gratis

Artikel tillagd i varukorgen!

Tekniken bakom DijiFlow: Whisper, CoreML och Apple Silicon, enkelt förklarat

Whisper: att göra ljud till ord

Varför modellen är en separat nedladdning

CoreML: att köra modellen på det effektiva sättet

Apple Silicon: chippet som gör det omedelbart

Hela kedjan, från början till slut

Ladda ner en gång, sedan offline för alltid

Och bortom Mac:en

Inget trick, bara god ingenjörskonst

DijiFlow Dictate-teamet

Börja diktera handsfree redan idag.

Du kanske ocksågillar

Gratis, Prova-på eller Pro: så väljer du rätt DijiFlow-plan (och vad varje plan innehåller)

Kom igång med DijiFlow Dictate: installation, snabbtangenter och din första diktering

Diktering för skribenter och studenter: snabbare utkast, anteckningar och uppsatser