The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

De techniek achter DijiFlow: Whisper, CoreML en Apple Silicon, eenvoudig uitgelegd

Hoe DijiFlow Dictate je stem volledig op je eigen apparaat omzet in tekst, met Whisper, CoreML en Apple Silicon. In gewone taal uitgelegd.

De meeste dictaten voelen als magie totdat je de voor de hand liggende vraag stelt: waar gaat mijn stem eigenlijk naartoe? Bij DijiFlow Dictate is het eerlijke antwoord: nergens. Je spreekt, tekst verschijnt bij je cursor, en geen enkel woord reist naar een server. Geen account, geen upload, geen telemetrie. Dat is geen privacybelofte die op het eind is geplakt — het volgt uit hoe de app gebouwd is.

Drie goed begrepen onderdelen laten het werken: Whisper, het open spraakmodel dat het luisteren doet; CoreML, het framework dat het efficiënt op een Mac draait; en Apple Silicon, de chip die het onmiddellijk doet aanvoelen. Geen voorkennis nodig — hier is elk onderdeel in gewone taal.

  • ~12 MB
    app-download
  • 300 MB–6 GB
    spraakmodel, één keer gedownload
  • Neural Engine
    waar het werk echt draait

Whisper: geluid omzetten in woorden

In het hart van DijiFlow Dictate zit Whisper, een familie opensource spraakherkenningsmodellen van OpenAI. Een spraakmodel is, in gewone taal, een zeer grote patroonmatcher die is getraind op enorme hoeveelheden audio gekoppeld aan de bijbehorende transcriptie. Uit die data leert het hoe de klanken die mensen maken aansluiten op de woorden die ze bedoelen — over accenten, achtergrondgeluid en de natuurlijke pauzes van echte spraak heen.

Wanneer je dicteert, voorspelt Whisper de meest waarschijnlijke reeks woorden uit de audio van je microfoon, en daar is het werkelijk goed in. Bij heldere spraak haalt het ongeveer 98% nauwkeurigheid, en de meest capabele versie, Whisper large-v3, verwerkt tot 90+ talen. Omdat het context leest in plaats van één woord tegelijk te matchen, gaat het om met de rommelige manier waarop mensen werkelijk praten.

Waarom het model een aparte download is

Dit is het deel dat mensen verrast: de app en de intelligentie zijn twee verschillende bestanden. DijiFlow Dictate zelf is piepklein — ongeveer 12 MB. De Whisper-spraakmodellen zijn het zware deel, variërend van zo'n 300 MB tot 6 GB, afhankelijk van welke je kiest. Grotere modellen zijn doorgaans nauwkeuriger op moeilijke audio, maar vragen meer van je hardware, dus jij kiest de balans tussen snelheid en nauwkeurigheid die bij je past.

Je downloadt een model één keer; daarna heeft transcriptie helemaal geen internet meer nodig. Die eenmalige stap is precies waarom je stem op je machine kan blijven.

CoreML: het model op de efficiënte manier draaien

Een spraakmodel is alleen nuttig als het snel draait zonder je batterij leeg te trekken. Dat is de taak van CoreML, Apple's framework voor het draaien van machine-learningmodellen op zijn apparaten. Zie het als een vertaler en verkeersregelaar: het neemt een model als Whisper en bepaalt hoe het te draaien met de meest geschikte onderdelen van je hardware.

DijiFlow Dictate gebruikt WhisperKit, een opensource runtime die Whisper compileert om via CoreML te draaien. Dat betekent dat het model specifiek voor Apple-hardware is geoptimaliseerd in plaats van als generieke, tragere code te draaien, zodat dicteren gelijke tred houdt met natuurlijke spraak en tegelijk licht blijft voor je systeembronnen. En het gebeurt allemaal lokaal — CoreML is geen clouddienst. Het is deel van het besturingssysteem dat apps in staat stelt slimme functies privé en offline te draaien.

Apple Silicon: de chip die het onmiddellijk maakt

Het laatste onderdeel is de hardware. Op moderne Macs betekent dat Apple Silicon — de M-serie chips in machines die macOS 14 of later draaien. Deze chips bevatten een speciale Neural Engine, een stuk silicium dat specifiek is gebouwd om machine-learningmodellen snel en met zeer weinig stroom te draaien, met de GPU beschikbaar via Metal wanneer extra paardenkracht helpt.

Je configureert hier niets van. CoreML verdeelt het werk automatisch over de juiste hardware; jij spreekt gewoon, en de chip handelt het in realtime af. Dat is het stille voordeel van ontwerp op je apparaat: hetzelfde silicium dat je Mac responsief doet aanvoelen, is wat privé dicteren praktisch maakt.

De hele pijplijn, van begin tot eind

Zet de drie onderdelen op volgorde en de rondreis is kort — en volledig lokaal.

  1. Je spreekt

    Audio van je microfoon wordt op het apparaat vastgelegd, nergens heen gestreamd.

  2. Whisper draait via CoreML op de Neural Engine

    Het model zet geluid om in woorden, daar ter plekke op Apple Silicon, in realtime.

  3. Tekst belandt bij je cursor

    Je woorden verschijnen in welke app je ook al bezig bent. Er wordt niets weggestuurd, dus er valt niets te lekken.

Kernpunt

Het model woont op je machine, dus transcriptie is gewoon lokale berekening — er zit geen server in de lus om je stem op te slaan, te onderscheppen of stilletjes te bewaren.

Eén keer downloaden, daarna voor altijd offline

De meeste spraaktools zijn clouddiensten met een app-icoon op: ze hebben elke keer een verbinding en een account nodig, omdat het model dat je begrijpt op andermans hardware woont. DijiFlow Dictate keert dat om — je installeert één keer, en het werk verhuist naar je chip.

Hoe het zich gedraagtDijiFlow (op je apparaat)Dicteren in de cloud
Werkt na een eenmalige download
Transcribeert zonder internet
Geen account vereist
Audio blijft op je apparaat

En verder dan de Mac

Dezelfde aanpak op je apparaat strekt zich uit tot Windows 10 en 11, waar DijiFlow Dictate draait op AMD-, Intel- en NVIDIA-GPU's. NVIDIA-hardware heeft CUDA en een actueel stuurprogramma nodig, maar het principe is identiek: je spraak wordt lokaal getranscribeerd, en er wordt niets weggestuurd.

Geen truc, gewoon goed vakmanschap

Er gebeurt hier niets exotisch. DijiFlow Dictate is gebouwd op open, goed begrepen technologie — Whisper voor het spraakmodel, WhisperKit en CoreML voor de runtime, en Apple Silicon voor de hardware. De beslissing die ertoe doet, is om dat allemaal op je apparaat te houden, zodat je het gemak van modern dicteren krijgt zonder je stem ooit aan iemand af te staan, in Free, Trial en Pro.

Als je het liever voelt dan erover leest, kun je privé dicteren op je apparaat 30 dagen gratis uitproberen op het Pro-abonnement.

DijiFlow DictateDijiFlow Dictate

Het DijiFlow Dictate Team

Aantekeningen over privé dicteren op je eigen apparaat en meer gedaan krijgen met je stem.

Begin handsfree te dicteren vandaag nog.

Privé, 100% on-device spraak-naar-tekst in 90+ talen — voor altijd gratis, Pro wanneer je meer nodig hebt.