The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon4 min read

Technologia stojąca za DijiFlow: Whisper, CoreML i Apple Silicon w prostych słowach

Jak DijiFlow Dictate zamienia Twój głos w tekst w całości na Twoim urządzeniu, korzystając z Whisper, CoreML i Apple Silicon. Wyjaśnione prostym językiem.

Większość dyktowania wydaje się magią, dopóki nie zadasz oczywistego pytania: dokąd właściwie trafia mój głos? W przypadku DijiFlow Dictate uczciwa odpowiedź brzmi: donikąd. Mówisz, tekst pojawia się w kursorze, a ani jedno słowo nie wędruje na serwer. Bez konta, bez wysyłki, bez telemetrii. To nie obietnica prywatności doczepiona na końcu — to wynika z tego, jak aplikacja jest zbudowana.

Sprawiają to trzy dobrze rozumiane elementy: Whisper, otwarty model mowy, który wykonuje słuchanie; CoreML, framework, który wydajnie uruchamia go na Macu; oraz Apple Silicon, układ, dzięki któremu wydaje się to natychmiastowe. Nie trzeba żadnej wcześniejszej wiedzy — oto każdy z nich w prostych słowach.

  • ~12 MB
    pobranie aplikacji
  • 300 MB–6 GB
    model mowy, pobierany raz
  • Neural Engine
    gdzie naprawdę dzieje się praca

Whisper: zamiana dźwięku na słowa

Sercem DijiFlow Dictate jest Whisper, rodzina otwartoźródłowych modeli rozpoznawania mowy od OpenAI. Model mowy to, mówiąc prosto, bardzo duży dopasowywacz wzorców trenowany na ogromnych ilościach dźwięku w parze z jego transkrypcją. Z tych danych uczy się, jak dźwięki, które wydają ludzie, łączą się ze słowami, które mają na myśli — w różnych akcentach, szumie w tle i naturalnych pauzach prawdziwej mowy.

Gdy dyktujesz, Whisper przewiduje najbardziej prawdopodobną sekwencję słów z dźwięku Twojego mikrofonu, i robi to naprawdę dobrze. Przy wyraźnej mowie osiąga około 98% dokładności, a najbardziej wydajna wersja, Whisper large-v3, obsługuje aż 90+ języków. Ponieważ czyta kontekst, a nie dopasowuje jedno słowo naraz, radzi sobie z chaotycznym sposobem, w jaki ludzie naprawdę mówią.

Dlaczego model jest osobnym pobraniem

To część, która ludzi zaskakuje: aplikacja i inteligencja to dwa różne pliki. Sam DijiFlow Dictate jest maleńki — około 12 MB. Modele mowy Whisper to ciężka część, mająca od mniej więcej 300 MB do 6 GB w zależności od tego, który wybierzesz. Większe modele są zwykle dokładniejsze przy trudnym dźwięku, ale więcej wymagają od sprzętu, więc wybierasz balans prędkości i dokładności, który Ci odpowiada.

Model pobierasz raz; potem transkrypcja w ogóle nie potrzebuje internetu. Ten jednorazowy krok to dokładnie powód, dla którego Twój głos może pozostać na komputerze.

CoreML: wydajne uruchamianie modelu

Model mowy jest przydatny tylko wtedy, gdy działa szybko, nie wyczerpując baterii. To zadanie CoreML, frameworka Apple do uruchamiania modeli uczenia maszynowego na jego urządzeniach. Pomyśl o nim jak o tłumaczu i regulatorze ruchu: bierze model taki jak Whisper i ustala, jak go uruchomić, wykorzystując najodpowiedniejsze części Twojego sprzętu.

DijiFlow Dictate korzysta z WhisperKit, otwartoźródłowego środowiska uruchomieniowego, które kompiluje Whisper do działania poprzez CoreML. Oznacza to, że model jest zoptymalizowany konkretnie pod sprzęt Apple, zamiast działać jako ogólny, wolniejszy kod, więc dyktowanie dotrzymuje kroku naturalnej mowie, pozostając lekkim dla zasobów systemu. I wszystko dzieje się lokalnie — CoreML nie jest usługą w chmurze. To część systemu operacyjnego, która pozwala aplikacjom uruchamiać inteligentne funkcje prywatnie i offline.

Apple Silicon: układ, który czyni to natychmiastowym

Ostatni element to sprzęt. Na nowoczesnych Macach oznacza to Apple Silicon — układy z serii M w komputerach działających pod macOS 14 lub nowszym. Układy te zawierają dedykowany Neural Engine, fragment krzemu zbudowany specjalnie po to, by uruchamiać modele uczenia maszynowego szybko i przy bardzo małym poborze mocy, a GPU dostępne jest poprzez Metal, gdy przydaje się dodatkowa moc.

Nie konfigurujesz nic z tego. CoreML rozkłada pracę na odpowiedni sprzęt automatycznie; Ty po prostu mówisz, a układ obsługuje to w czasie rzeczywistym. To cicha zaleta projektowania na urządzeniu: ten sam krzem, dzięki któremu Twój Mac wydaje się szybki, jest tym, co czyni prywatne dyktowanie praktycznym.

Cały przebieg, od początku do końca

Ustaw te trzy elementy po kolei, a podróż w obie strony jest krótka — i całkowicie lokalna.

  1. Mówisz

    Dźwięk z mikrofonu jest przechwytywany na urządzeniu, nigdy nigdzie nie przesyłany strumieniowo.

  2. Whisper działa przez CoreML na Neural Engine

    Model zamienia dźwięk na słowa od razu na miejscu, na Apple Silicon, w czasie rzeczywistym.

  3. Tekst trafia do kursora

    Twoje słowa pojawiają się w tej aplikacji, w której już jesteś. Nic nie jest wysyłane, więc nie ma czego ujawnić.

Najważniejszy wniosek

Model żyje na Twoim komputerze, więc transkrypcja to po prostu lokalne obliczenia — w pętli nie ma serwera, który mógłby przechowywać, przechwytywać czy po cichu zatrzymywać Twój głos.

Pobierz raz, potem offline na zawsze

Większość narzędzi głosowych to usługi w chmurze przebrane za ikonę aplikacji: za każdym razem potrzebują połączenia i konta, bo model, który Cię rozumie, żyje na cudzym sprzęcie. DijiFlow Dictate to odwraca — instalujesz raz, a praca przenosi się na Twój układ.

Jak się zachowujeDijiFlow (na urządzeniu)Dyktowanie w chmurze
Działa po jednorazowym pobraniu
Transkrybuje bez internetu
Nie wymaga konta
Dźwięk zostaje na Twoim urządzeniu

I poza Maca

To samo podejście na urządzeniu rozciąga się na Windows 10 i 11, gdzie DijiFlow Dictate działa na kartach graficznych AMD, Intel i NVIDIA. Sprzęt NVIDIA wymaga CUDA i aktualnego sterownika, ale zasada jest identyczna: Twoja mowa jest transkrybowana lokalnie, a nic nie jest wysyłane.

Żadnej sztuczki, po prostu dobra inżynieria

Nie dzieje się tu nic egzotycznego. DijiFlow Dictate jest zbudowany na otwartej, dobrze rozumianej technologii — Whisper jako model mowy, WhisperKit i CoreML jako środowisko uruchomieniowe oraz Apple Silicon jako sprzęt. Decyzja, która ma znaczenie, to trzymanie tego wszystkiego na Twoim urządzeniu, dzięki czemu dostajesz wygodę nowoczesnego dyktowania, nigdy nie przekazując nikomu swojego głosu, w planach Free, Trial i Pro.

Jeśli wolisz to poczuć niż o tym czytać, możesz wypróbować prywatne dyktowanie na urządzeniu za darmo przez 30 dni w planie Pro.

DijiFlow DictateDijiFlow Dictate

Zespół DijiFlow Dictate

Uwagi o prywatnym dyktowaniu na urządzeniu i o tym, jak zrobić więcej za pomocą głosu.

Zacznij dyktować bez użycia rąk już dziś.

Prywatna zamiana mowy na tekst w 100% na urządzeniu, w 90+ językach — za darmo na zawsze, a Pro wtedy, gdy potrzebujesz więcej.