The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

Die Technik hinter DijiFlow: Whisper, CoreML und Apple Silicon einfach erklärt

Wie DijiFlow Dictate Ihre Stimme vollständig auf Ihrem Gerät in Text umwandelt, mithilfe von Whisper, CoreML und Apple Silicon. In einfacher Sprache erklärt.

Die meisten Diktierfunktionen wirken wie Magie, bis Sie die naheliegende Frage stellen: Wohin geht meine Stimme eigentlich? Bei DijiFlow Dictate lautet die ehrliche Antwort: nirgendwohin. Sie sprechen, Text erscheint an Ihrem Cursor, und kein einziges Wort reist zu einem Server. Kein Konto, kein Upload, keine Telemetrie. Das ist kein Datenschutzversprechen, das am Ende aufgesetzt wurde — es ergibt sich daraus, wie die App gebaut ist.

Drei gut verstandene Bausteine machen es möglich: Whisper, das offene Sprachmodell, das zuhört; CoreML, das Framework, das es effizient auf einem Mac ausführt; und Apple Silicon, der Chip, der es unmittelbar wirken lässt. Kein Vorwissen nötig — hier ist jeder einzelne in klaren Worten.

  • ~12 MB
    App-Download
  • 300 MB–6 GB
    Sprachmodell, einmal heruntergeladen
  • Neural Engine
    wo die Arbeit tatsächlich läuft

Whisper: aus Klang werden Wörter

Im Herzen von DijiFlow Dictate steht Whisper, eine Familie quelloffener Spracherkennungsmodelle von OpenAI. Ein Sprachmodell ist, schlicht gesagt, ein sehr großer Mustererkenner, trainiert auf gewaltigen Mengen an Audio samt zugehörigem Transkript. Aus diesen Daten lernt es, wie die Laute, die Menschen erzeugen, mit den Wörtern zusammenpassen, die sie meinen — über Akzente, Hintergrundgeräusche und die natürlichen Pausen echter Sprache hinweg.

Wenn Sie diktieren, sagt Whisper die wahrscheinlichste Wortfolge aus Ihrem Mikrofon-Audio voraus, und das gelingt ihm wirklich gut. Bei klarer Sprache erreicht es rund 98 % Genauigkeit, und die leistungsfähigste Version, Whisper large-v3, bewältigt bis zu 90+ Sprachen. Weil es Kontext liest, statt ein Wort nach dem anderen abzugleichen, kommt es mit der unordentlichen Art zurecht, wie Menschen tatsächlich reden.

Warum das Modell ein separater Download ist

Das ist der Teil, der die Leute überrascht: Die App und die Intelligenz sind zwei verschiedene Dateien. DijiFlow Dictate selbst ist winzig — etwa 12 MB. Die Whisper-Sprachmodelle sind der schwere Teil und reichen je nach Auswahl von etwa 300 MB bis 6 GB. Größere Modelle sind bei schwierigem Audio im Allgemeinen genauer, fordern aber mehr von Ihrer Hardware, also wählen Sie das Gleichgewicht aus Tempo und Genauigkeit, das zu Ihnen passt.

Sie laden ein Modell einmal herunter; danach braucht die Transkription überhaupt kein Internet mehr. Genau dieser einmalige Schritt ist der Grund, warum Ihre Stimme auf Ihrem Rechner bleiben kann.

CoreML: das Modell auf die effiziente Art ausführen

Ein Sprachmodell ist nur dann nützlich, wenn es schnell läuft, ohne Ihren Akku zu leeren. Das ist die Aufgabe von CoreML, Apples Framework zum Ausführen von Modellen des maschinellen Lernens auf seinen Geräten. Stellen Sie es sich als Übersetzer und Verkehrslenker vor: Es nimmt ein Modell wie Whisper und ermittelt, wie es sich über die geeignetsten Teile Ihrer Hardware ausführen lässt.

DijiFlow Dictate nutzt WhisperKit, eine quelloffene Laufzeitumgebung, die Whisper für die Ausführung über CoreML kompiliert. Das bedeutet, dass das Modell speziell für Apple-Hardware optimiert ist, statt als generischer, langsamerer Code zu laufen, sodass das Diktieren mit natürlicher Sprache Schritt hält und zugleich ressourcenschonend bleibt. Und all das geschieht lokal — CoreML ist kein Cloud-Dienst. Es ist Teil des Betriebssystems, der es Apps ermöglicht, intelligente Funktionen privat und offline auszuführen.

Apple Silicon: der Chip, der es unmittelbar macht

Der letzte Baustein ist die Hardware. Auf modernen Macs bedeutet das Apple Silicon — die M-Chips in Geräten mit macOS 14 oder neuer. Diese Chips enthalten eine dedizierte Neural Engine, einen Siliziumbereich, der eigens dafür gebaut ist, Modelle des maschinellen Lernens schnell und mit sehr wenig Strom auszuführen, wobei die GPU über Metal verfügbar ist, wenn zusätzliche Leistung hilft.

Davon konfigurieren Sie nichts. CoreML verteilt die Arbeit automatisch auf die richtige Hardware; Sie sprechen einfach, und der Chip erledigt es in Echtzeit. Das ist der stille Vorteil des Designs auf dem Gerät: Dasselbe Silizium, das Ihren Mac reaktionsschnell wirken lässt, ist das, was privates Diktieren praktikabel macht.

Die gesamte Verarbeitungskette, von Anfang bis Ende

Bringt man die drei Bausteine in Reihe, ist der Weg kurz — und vollständig lokal.

  1. Sie sprechen

    Audio von Ihrem Mikrofon wird auf dem Gerät erfasst, nirgendwohin gestreamt.

  2. Whisper läuft über CoreML auf der Neural Engine

    Das Modell verwandelt Klang direkt dort auf Apple Silicon in Wörter, in Echtzeit.

  3. Text landet an Ihrem Cursor

    Ihre Worte erscheinen in genau der App, in der Sie bereits sind. Nichts wird versendet, also gibt es nichts, das nach außen dringen könnte.

Das Wichtigste in Kürze

Das Modell lebt auf Ihrem Rechner, also ist die Transkription bloß lokale Berechnung — es gibt keinen Server in der Schleife, der Ihre Stimme speichern, abfangen oder still aufbewahren könnte.

Einmal herunterladen, dann für immer offline

Die meisten Sprachwerkzeuge sind Cloud-Dienste mit App-Symbol: Sie brauchen jedes Mal eine Verbindung und ein Konto, weil das Modell, das Sie versteht, auf fremder Hardware lebt. DijiFlow Dictate dreht das um — Sie installieren einmal, und die Arbeit wandert auf Ihren Chip.

Wie es sich verhältDijiFlow (auf dem Gerät)Cloud-Diktat
Funktioniert nach einem einmaligen Download
Transkribiert ohne Internet
Kein Konto erforderlich
Audio bleibt auf Ihrem Gerät

Und über den Mac hinaus

Derselbe Ansatz auf dem Gerät erstreckt sich auf Windows 10 und 11, wo DijiFlow Dictate auf GPUs von AMD, Intel und NVIDIA läuft. NVIDIA-Hardware braucht CUDA und einen aktuellen Treiber, doch das Prinzip ist identisch: Ihre Sprache wird lokal transkribiert, und nichts wird versendet.

Kein Trick, nur gute Technik

Hier geschieht nichts Exotisches. DijiFlow Dictate baut auf offener, gut verstandener Technik auf — Whisper für das Sprachmodell, WhisperKit und CoreML für die Laufzeitumgebung und Apple Silicon für die Hardware. Die Entscheidung, auf die es ankommt, ist, all das auf Ihrem Gerät zu halten, sodass Sie die Bequemlichkeit moderner Diktierfunktion erhalten, ohne Ihre Stimme je irgendwem zu überlassen — über Free, Trial und Pro hinweg.

Wenn Sie es lieber spüren als darüber lesen möchten, können Sie privates Diktieren auf dem Gerät 30 Tage lang kostenlos im Pro-Tarif ausprobieren.

DijiFlow DictateDijiFlow Dictate

Das DijiFlow Dictate Team

Notizen zum privaten, geräteinternen Diktieren und dazu, wie Sie mit Ihrer Stimme mehr erledigen.

Freihändig diktieren, ab heute.

Private, 100% geräteinterne Spracherkennung in 29 Sprachen — für immer kostenlos, Pro, wenn Sie mehr brauchen.