The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon4. červen 20264 min read

Technologie za DijiFlow: Whisper, CoreML a Apple Silicon srozumitelně

Jak DijiFlow Dictate převádí váš hlas na text výhradně ve vašem zařízení pomocí Whisper, CoreML a Apple Silicon. Vysvětleno jednoduše.

Většina diktování působí jako kouzlo, dokud nepoložíte tu nasnadě se nabízející otázku: kam vlastně můj hlas putuje? U DijiFlow Dictate zní upřímná odpověď nikam. Promluvíte, text se objeví u kurzoru a ani jediné slovo neputuje na server. Žádný účet, žádné odesílání, žádná telemetrie. Není to slib o soukromí dolepený na konci — vyplývá to z toho, jak je aplikace postavená.

Tři dobře pochopené součásti to umožňují: Whisper, otevřený hlasový model, který naslouchá; CoreML, framework, který ho na Macu efektivně provozuje; a Apple Silicon, čip, díky kterému to působí okamžitě. Žádné předchozí znalosti nejsou potřeba — tady je každá z nich jednoduše vysvětlená.

~12 MB
stažení aplikace
300 MB–6 GB
hlasový model, stažen jednou
Neural Engine
kde práce vlastně běží

Whisper: proměna zvuku ve slova

V srdci DijiFlow Dictate je Whisper, rodina open-source modelů pro rozpoznávání řeči od OpenAI. Hlasový model je, jednoduše řečeno, velmi rozsáhlý porovnávač vzorů natrénovaný na obrovském množství zvuku spárovaného s jeho přepisem. Z těchto dat se naučí, jak zvuky, které lidé vydávají, odpovídají slovům, která mají na mysli — napříč přízvuky, hlukem v pozadí a přirozenými odmlkami skutečné řeči.

Když diktujete, Whisper předpovídá nejpravděpodobnější sled slov ze zvuku vašeho mikrofonu, a je v tom doopravdy dobrý. U zřetelné řeči dosahuje kolem 98% přesnosti a nejschopnější verze, Whisper large-v3, zvládá až 90+ jazyků. Protože čte kontext, místo aby porovnával jedno slovo po druhém, poradí si s tím, jak neučesaně lidé ve skutečnosti mluví.

Proč je model samostatné stažení

Tohle lidi překvapí: aplikace a inteligence jsou dva různé soubory. Samotný DijiFlow Dictate je drobný — kolem 12 MB. Hlasové modely Whisper jsou ta těžká část, v rozsahu zhruba od 300 MB do 6 GB podle toho, který zvolíte. Větší modely jsou obvykle přesnější u obtížného zvuku, ale kladou větší nároky na váš hardware, takže si vyberete tu rovnováhu rychlosti a přesnosti, která vám vyhovuje.

Model stáhnete jednou; poté přepis nepotřebuje internet vůbec. Právě tento jednorázový krok je důvod, proč může váš hlas zůstat na vašem počítači.

CoreML: provoz modelu efektivním způsobem

Hlasový model je užitečný jen tehdy, když běží rychle a nevybíjí baterii. To je úkol CoreML, frameworku Applu pro provoz modelů strojového učení na jeho zařízeních. Představte si ho jako překladatele a dispečera: vezme model jako Whisper a vymyslí, jak ho provozovat s využitím nejvhodnějších částí vašeho hardwaru.

DijiFlow Dictate používá WhisperKit, open-source běhové prostředí, které kompiluje Whisper tak, aby běžel přes CoreML. To znamená, že model je optimalizovaný přímo pro hardware Applu, místo aby běžel jako obecný, pomalejší kód, takže diktování drží krok s přirozenou řečí a přitom šetří systémové prostředky. A celé to probíhá lokálně — CoreML není cloudová služba. Je to součást operačního systému, která aplikacím umožňuje provozovat chytré funkce soukromě a offline.

Apple Silicon: čip, díky kterému je to okamžité

Poslední součástí je hardware. Na moderních Macích to znamená Apple Silicon — čipy řady M v počítačích s macOS 14 nebo novějším. Tyto čipy obsahují vyhrazený Neural Engine, část křemíku postavenou přímo pro rychlý provoz modelů strojového učení s velmi nízkou spotřebou, přičemž přes Metal je k dispozici i GPU, když pomůže výkon navíc.

Nic z toho nenastavujete. CoreML rozprostře práci napříč správným hardwarem automaticky; vy jen mluvíte a čip si s tím poradí v reálném čase. To je tichá výhoda návrhu v zařízení: tentýž křemík, díky kterému váš Mac působí svižně, dělá soukromé diktování praktickým.

Celý postup, od začátku do konce

Seřaďte ty tři součásti a okružní cesta je krátká — a zcela lokální.

Promluvíte
Zvuk z vašeho mikrofonu se zachytí v zařízení, nikdy se nikam neodesílá.
Whisper běží přes CoreML na Neural Engine
Model promění zvuk ve slova přímo tam na Apple Silicon, v reálném čase.
Text se objeví u kurzoru
Vaše slova se objeví v té aplikaci, ve které už jste. Nic se neodesílá pryč, takže není co nechat uniknout.

Hlavní poznatek

Model žije na vašem počítači, takže přepis je jen lokální výpočet — v cestě není žádný server, který by váš hlas ukládal, zachytával nebo potichu uchovával.

Stáhněte jednou, pak navždy offline

Většina hlasových nástrojů jsou cloudové služby v hávu ikony aplikace: pokaždé potřebují připojení a účet, protože model, který vám rozumí, žije na cizím hardwaru. DijiFlow Dictate to obrací — nainstalujete jednou a práce se přesune na váš čip.

Jak se chová	DijiFlow (v zařízení)	Cloudové diktování
Funguje po jednorázovém stažení	✓	✗
Přepisuje bez internetu	✓	✗
Není nutný účet	✓	✗
Zvuk zůstává ve vašem zařízení	✓	✗

A za hranice Macu

Tentýž přístup v zařízení se rozšiřuje na Windows 10 a 11, kde DijiFlow Dictate běží na grafických kartách AMD, Intel i NVIDIA. Hardware NVIDIA potřebuje CUDA a aktuální ovladač, ale princip je totožný: vaše řeč se přepisuje lokálně a nic se neodesílá pryč.

Žádný trik, jen dobrá technika

Neděje se tu nic exotického. DijiFlow Dictate je postaven na otevřené, dobře pochopené technologii — Whisper pro hlasový model, WhisperKit a CoreML pro běhové prostředí a Apple Silicon pro hardware. Rozhodnutí, na kterém záleží, je držet to všechno ve vašem zařízení, takže získáte pohodlí moderního diktování, aniž byste kdy komukoli předali svůj hlas, napříč tarify Free, Zkušební verze i Pro.

Pokud to raději ucítíte, než si o tom budete číst, můžete soukromé diktování v zařízení vyzkoušet zdarma na 30 dní v tarifu Pro.

Tým DijiFlow Dictate

Postřehy o soukromém diktování přímo v zařízení a o tom, jak hlasem zvládnete víc.

Předchozí Diktování pro spisovatele a studenty: rychlejší koncepty, poznámky a eseje Další Diktování pro spisovatele a studenty: rychlejší koncepty, poznámky a eseje

Začněte diktovat bez psaní ještě dnes.

Soukromý převod hlasu na text, 100% přímo v zařízení, ve 90+ jazycích — zdarma navždy, Pro, když potřebujete víc.

Pořídit DijiFlow Pro Stáhnout zdarma

Položka přidána do košíku!

Technologie za DijiFlow: Whisper, CoreML a Apple Silicon srozumitelně

Whisper: proměna zvuku ve slova

Proč je model samostatné stažení

CoreML: provoz modelu efektivním způsobem

Apple Silicon: čip, díky kterému je to okamžité

Celý postup, od začátku do konce

Stáhněte jednou, pak navždy offline

A za hranice Macu

Žádný trik, jen dobrá technika

Tým DijiFlow Dictate

Začněte diktovat bez psaní ještě dnes.

Mohlo by se vám takélíbit

Zdarma, Zkušební verze, nebo Pro: jak vybrat správný plán DijiFlow (a co každý zahrnuje)

Začínáme s DijiFlow Dictate: nastavení, klávesové zkratky a vaše první diktování

Diktování pro spisovatele a studenty: rychlejší koncepty, poznámky a eseje