Free, Trial czy Pro: jak wybrać właściwy plan DijiFlow (i co obejmuje każdy z nich)
Porównaj plany Free, Trial i Pro aplikacji DijiFlow Dictate. Zobacz dokładnie, co zawiera każdy poziom, aby wybrać wł...
Masz %itemCount% w koszyku.Razem %total%
Jak DijiFlow Dictate zamienia Twój głos w tekst w całości na Twoim urządzeniu, korzystając z Whisper, CoreML i Apple Silicon. Wyjaśnione prostym językiem.
Większość dyktowania wydaje się magią, dopóki nie zadasz oczywistego pytania: dokąd właściwie trafia mój głos? W przypadku DijiFlow Dictate uczciwa odpowiedź brzmi: donikąd. Mówisz, tekst pojawia się w kursorze, a ani jedno słowo nie wędruje na serwer. Bez konta, bez wysyłki, bez telemetrii. To nie obietnica prywatności doczepiona na końcu — to wynika z tego, jak aplikacja jest zbudowana.
Sprawiają to trzy dobrze rozumiane elementy: Whisper, otwarty model mowy, który wykonuje słuchanie; CoreML, framework, który wydajnie uruchamia go na Macu; oraz Apple Silicon, układ, dzięki któremu wydaje się to natychmiastowe. Nie trzeba żadnej wcześniejszej wiedzy — oto każdy z nich w prostych słowach.
Sercem DijiFlow Dictate jest Whisper, rodzina otwartoźródłowych modeli rozpoznawania mowy od OpenAI. Model mowy to, mówiąc prosto, bardzo duży dopasowywacz wzorców trenowany na ogromnych ilościach dźwięku w parze z jego transkrypcją. Z tych danych uczy się, jak dźwięki, które wydają ludzie, łączą się ze słowami, które mają na myśli — w różnych akcentach, szumie w tle i naturalnych pauzach prawdziwej mowy.
Gdy dyktujesz, Whisper przewiduje najbardziej prawdopodobną sekwencję słów z dźwięku Twojego mikrofonu, i robi to naprawdę dobrze. Przy wyraźnej mowie osiąga około 98% dokładności, a najbardziej wydajna wersja, Whisper large-v3, obsługuje aż 90+ języków. Ponieważ czyta kontekst, a nie dopasowuje jedno słowo naraz, radzi sobie z chaotycznym sposobem, w jaki ludzie naprawdę mówią.
To część, która ludzi zaskakuje: aplikacja i inteligencja to dwa różne pliki. Sam DijiFlow Dictate jest maleńki — około 12 MB. Modele mowy Whisper to ciężka część, mająca od mniej więcej 300 MB do 6 GB w zależności od tego, który wybierzesz. Większe modele są zwykle dokładniejsze przy trudnym dźwięku, ale więcej wymagają od sprzętu, więc wybierasz balans prędkości i dokładności, który Ci odpowiada.
Model pobierasz raz; potem transkrypcja w ogóle nie potrzebuje internetu. Ten jednorazowy krok to dokładnie powód, dla którego Twój głos może pozostać na komputerze.
Model mowy jest przydatny tylko wtedy, gdy działa szybko, nie wyczerpując baterii. To zadanie CoreML, frameworka Apple do uruchamiania modeli uczenia maszynowego na jego urządzeniach. Pomyśl o nim jak o tłumaczu i regulatorze ruchu: bierze model taki jak Whisper i ustala, jak go uruchomić, wykorzystując najodpowiedniejsze części Twojego sprzętu.
DijiFlow Dictate korzysta z WhisperKit, otwartoźródłowego środowiska uruchomieniowego, które kompiluje Whisper do działania poprzez CoreML. Oznacza to, że model jest zoptymalizowany konkretnie pod sprzęt Apple, zamiast działać jako ogólny, wolniejszy kod, więc dyktowanie dotrzymuje kroku naturalnej mowie, pozostając lekkim dla zasobów systemu. I wszystko dzieje się lokalnie — CoreML nie jest usługą w chmurze. To część systemu operacyjnego, która pozwala aplikacjom uruchamiać inteligentne funkcje prywatnie i offline.
Ostatni element to sprzęt. Na nowoczesnych Macach oznacza to Apple Silicon — układy z serii M w komputerach działających pod macOS 14 lub nowszym. Układy te zawierają dedykowany Neural Engine, fragment krzemu zbudowany specjalnie po to, by uruchamiać modele uczenia maszynowego szybko i przy bardzo małym poborze mocy, a GPU dostępne jest poprzez Metal, gdy przydaje się dodatkowa moc.
Nie konfigurujesz nic z tego. CoreML rozkłada pracę na odpowiedni sprzęt automatycznie; Ty po prostu mówisz, a układ obsługuje to w czasie rzeczywistym. To cicha zaleta projektowania na urządzeniu: ten sam krzem, dzięki któremu Twój Mac wydaje się szybki, jest tym, co czyni prywatne dyktowanie praktycznym.
Ustaw te trzy elementy po kolei, a podróż w obie strony jest krótka — i całkowicie lokalna.
Dźwięk z mikrofonu jest przechwytywany na urządzeniu, nigdy nigdzie nie przesyłany strumieniowo.
Model zamienia dźwięk na słowa od razu na miejscu, na Apple Silicon, w czasie rzeczywistym.
Twoje słowa pojawiają się w tej aplikacji, w której już jesteś. Nic nie jest wysyłane, więc nie ma czego ujawnić.
Najważniejszy wniosek
Model żyje na Twoim komputerze, więc transkrypcja to po prostu lokalne obliczenia — w pętli nie ma serwera, który mógłby przechowywać, przechwytywać czy po cichu zatrzymywać Twój głos.
Większość narzędzi głosowych to usługi w chmurze przebrane za ikonę aplikacji: za każdym razem potrzebują połączenia i konta, bo model, który Cię rozumie, żyje na cudzym sprzęcie. DijiFlow Dictate to odwraca — instalujesz raz, a praca przenosi się na Twój układ.
| Jak się zachowuje | DijiFlow (na urządzeniu) | Dyktowanie w chmurze |
|---|---|---|
| Działa po jednorazowym pobraniu | ✓ | ✗ |
| Transkrybuje bez internetu | ✓ | ✗ |
| Nie wymaga konta | ✓ | ✗ |
| Dźwięk zostaje na Twoim urządzeniu | ✓ | ✗ |
To samo podejście na urządzeniu rozciąga się na Windows 10 i 11, gdzie DijiFlow Dictate działa na kartach graficznych AMD, Intel i NVIDIA. Sprzęt NVIDIA wymaga CUDA i aktualnego sterownika, ale zasada jest identyczna: Twoja mowa jest transkrybowana lokalnie, a nic nie jest wysyłane.
Nie dzieje się tu nic egzotycznego. DijiFlow Dictate jest zbudowany na otwartej, dobrze rozumianej technologii — Whisper jako model mowy, WhisperKit i CoreML jako środowisko uruchomieniowe oraz Apple Silicon jako sprzęt. Decyzja, która ma znaczenie, to trzymanie tego wszystkiego na Twoim urządzeniu, dzięki czemu dostajesz wygodę nowoczesnego dyktowania, nigdy nie przekazując nikomu swojego głosu, w planach Free, Trial i Pro.
Jeśli wolisz to poczuć niż o tym czytać, możesz wypróbować prywatne dyktowanie na urządzeniu za darmo przez 30 dni w planie Pro.
Prywatna zamiana mowy na tekst w 100% na urządzeniu, w 90+ językach — za darmo na zawsze, a Pro wtedy, gdy potrzebujesz więcej.