The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon5 min read

La technologie derrière DijiFlow : Whisper, CoreML et Apple Silicon, expliqués simplement

Comment DijiFlow Dictate transforme votre voix en texte entièrement sur votre appareil, grâce à Whisper, CoreML et Apple Silicon. Expliqué en langage clair.

La plupart des outils de dictée tiennent de la magie jusqu'à ce qu'on pose la question évidente : où va réellement ma voix ? Avec DijiFlow Dictate, la réponse honnête est nulle part. Vous parlez, le texte apparaît à votre curseur, et pas un seul mot ne voyage vers un serveur. Pas de compte, pas d'envoi, pas de télémétrie. Ce n'est pas une promesse de confidentialité ajoutée à la fin — elle découle de la façon dont l'application est conçue.

Trois pièces bien comprises font tout fonctionner : Whisper, le modèle de parole ouvert qui écoute ; CoreML, le framework qui l'exécute efficacement sur un Mac ; et Apple Silicon, la puce qui rend tout cela instantané. Aucune connaissance préalable requise — voici chacune d'elles en termes simples.

  • ~12 MB
    téléchargement de l'application
  • 300 MB–6 GB
    modèle de parole, téléchargé une fois
  • Neural Engine
    là où le travail s'exécute vraiment

Whisper : transformer le son en mots

Au cœur de DijiFlow Dictate se trouve Whisper, une famille de modèles open source de reconnaissance vocale signés OpenAI. Un modèle de parole est, en termes simples, un détecteur de motifs de très grande taille, entraîné sur d'énormes quantités d'audio associées à leur transcription. À partir de ces données, il apprend comment les sons que les gens produisent s'alignent sur les mots qu'ils veulent dire — à travers les accents, le bruit de fond et les pauses naturelles de la parole réelle.

Quand vous dictez, Whisper prédit la suite de mots la plus probable à partir de l'audio de votre microphone, et il y excelle vraiment. Sur une parole claire, il atteint environ 98% de précision, et la version la plus performante, Whisper large-v3, gère jusqu'à 90+ langues. Parce qu'il lit le contexte plutôt que de faire correspondre un mot à la fois, il s'accommode de la façon désordonnée dont les gens parlent réellement.

Pourquoi le modèle est un téléchargement à part

C'est la partie qui surprend : l'application et l'intelligence sont deux fichiers différents. DijiFlow Dictate lui-même est minuscule — environ 12 MB. Les modèles de parole Whisper sont la partie lourde, allant de 300 MB à 6 GB selon celui que vous choisissez. Les modèles plus grands sont en général plus précis sur les audios difficiles mais exigent davantage de votre matériel, vous choisissez donc l'équilibre entre vitesse et précision qui vous convient.

Vous téléchargez un modèle une fois ; ensuite, la transcription n'a plus besoin d'Internet du tout. Cette étape unique est exactement ce qui permet à votre voix de rester sur votre machine.

CoreML : exécuter le modèle de façon efficace

Un modèle de parole n'est utile que s'il s'exécute vite sans vider votre batterie. C'est le rôle de CoreML, le framework d'Apple pour exécuter des modèles d'apprentissage automatique sur ses appareils. Voyez-le comme un traducteur et un aiguilleur : il prend un modèle comme Whisper et détermine comment l'exécuter sur les parties les plus adaptées de votre matériel.

DijiFlow Dictate utilise WhisperKit, un environnement d'exécution open source qui compile Whisper pour le faire tourner via CoreML. Le modèle est ainsi optimisé spécifiquement pour le matériel Apple au lieu de tourner sous forme de code générique et plus lent, si bien que la dictée suit le rythme de la parole naturelle tout en restant légère sur les ressources système. Et tout cela se passe en local — CoreML n'est pas un service cloud. C'est une partie du système d'exploitation qui permet aux applications d'exécuter des fonctions intelligentes de façon privée et hors ligne.

Apple Silicon : la puce qui rend tout instantané

La dernière pièce est le matériel. Sur les Mac récents, cela signifie Apple Silicon — les puces de la série M dans les machines sous macOS 14 ou ultérieur. Ces puces intègrent un Neural Engine dédié, une portion de silicium conçue spécifiquement pour exécuter des modèles d'apprentissage automatique vite et avec très peu d'énergie, le GPU restant disponible via Metal quand un surcroît de puissance aide.

Vous ne configurez rien de tout cela. CoreML répartit automatiquement le travail sur le bon matériel ; vous parlez, et la puce s'en charge en temps réel. C'est l'avantage discret de la conception sur l'appareil : le même silicium qui rend votre Mac réactif est ce qui rend la dictée privée praticable.

Toute la chaîne, du début à la fin

Mettez les trois pièces dans l'ordre et l'aller-retour est court — et entièrement local.

  1. Vous parlez

    L'audio de votre microphone est capté sur l'appareil, jamais diffusé où que ce soit.

  2. Whisper s'exécute via CoreML sur le Neural Engine

    Le modèle transforme le son en mots là, directement sur Apple Silicon, en temps réel.

  3. Le texte se pose à votre curseur

    Vos mots apparaissent dans l'application où vous êtes déjà. Rien n'est envoyé, donc il n'y a rien à laisser fuiter.

À retenir

Le modèle vit sur votre machine, la transcription n'est donc qu'un calcul local — aucun serveur dans la boucle pour stocker, intercepter ou conserver discrètement votre voix.

Téléchargez une fois, puis hors ligne pour toujours

La plupart des outils vocaux sont des services cloud déguisés en icône d'application : ils réclament une connexion et un compte à chaque fois, parce que le modèle qui vous comprend vit sur le matériel de quelqu'un d'autre. DijiFlow Dictate inverse cela — vous installez une fois, et le travail se déplace sur votre puce.

Son comportementDijiFlow (sur l'appareil)Dictée cloud
Fonctionne après un téléchargement unique
Transcrit sans Internet
Aucun compte requis
L'audio reste sur votre appareil

Et au-delà du Mac

La même approche sur l'appareil s'étend à Windows 10 et 11, où DijiFlow Dictate fonctionne sur les GPU AMD, Intel et NVIDIA. Le matériel NVIDIA nécessite CUDA et un pilote à jour, mais le principe est identique : votre parole est transcrite en local, et rien n'est envoyé.

Aucun tour de passe-passe, juste de la bonne ingénierie

Rien d'exotique ne se passe ici. DijiFlow Dictate est bâti sur une technologie ouverte et bien comprise — Whisper pour le modèle de parole, WhisperKit et CoreML pour l'environnement d'exécution, et Apple Silicon pour le matériel. La décision qui compte, c'est de garder tout cela sur votre appareil, pour que vous profitiez de la commodité de la dictée moderne sans jamais confier votre voix à quiconque, sur Free, Trial et Pro.

Si vous préférez le ressentir plutôt que le lire, vous pouvez essayer la dictée privée sur l'appareil gratuitement pendant 30 jours avec la formule Pro.

DijiFlow DictateDijiFlow Dictate

L'équipe DijiFlow Dictate

Notes sur la dictée privée, sur l'appareil, et sur l'art d'en faire plus à la voix.

Dictez sans les mains dès aujourd'hui.

Reconnaissance vocale privée, 100 % sur l'appareil, en 29 langues — gratuite pour toujours, Pro quand vous avez besoin de plus.