The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon3 min read

DijiFlow'un arkasındaki teknoloji: Whisper, CoreML ve Apple Silicon basitçe anlatıldı

DijiFlow Dictate'in sesinizi Whisper, CoreML ve Apple Silicon kullanarak tamamen cihazınızda nasıl metne dönüştürdüğü. Sade bir dille anlatıldı.

Çoğu dikte, şu apaçık soruyu sorana dek sihir gibi gelir: sesim aslında nereye gidiyor? DijiFlow Dictate söz konusu olduğunda dürüst yanıt, hiçbir yere. Konuşursunuz, metin imlecinizde belirir ve tek bir kelime bile bir sunucuya gitmez. Hesap yok, yükleme yok, telemetri yok. Bu, sona iliştirilmiş bir gizlilik vaadi değil — uygulamanın nasıl kurulduğundan doğrudan çıkıyor.

İşi üç iyi anlaşılmış parça yapar: dinlemeyi üstlenen açık konuşma modeli Whisper; onu bir Mac'te verimli çalıştıran çerçeve CoreML; ve her şeyi anlık hissettiren çip Apple Silicon. Ön bilgi gerekmez — işte her biri sade bir dille.

  • ~12 MB
    uygulama indirmesi
  • 300 MB–6 GB
    konuşma modeli, bir kez indirildi
  • Neural Engine
    işin gerçekte çalıştığı yer

Whisper: sesi kelimeye çevirmek

DijiFlow Dictate'in kalbinde Whisper var; OpenAI'den gelen açık kaynaklı bir konuşma tanıma modelleri ailesi. Bir konuşma modeli, sade bir dille, transkriptiyle eşleştirilmiş muazzam miktarda ses üzerinde eğitilmiş çok büyük bir örüntü eşleştiricidir. Bu veriden, insanların çıkardığı seslerin kastettikleri kelimelerle nasıl örtüştüğünü öğrenir — aksanlar, arka plan gürültüsü ve gerçek konuşmanın doğal duraklamaları boyunca.

Dikte ettiğinizde Whisper, mikrofon sesinizden en olası kelime dizisini tahmin eder ve bunu gerçekten iyi yapar. Net konuşmada yaklaşık %98 doğruluğa ulaşır ve en yetenekli sürüm Whisper large-v3, 90+ dile kadarını karşılar. Tek tek kelime eşleştirmek yerine bağlamı okuduğu için insanların gerçekte konuştuğu o dağınık biçimle baş eder.

Model neden ayrı bir indirme

İnsanları şaşırtan kısım şu: uygulama ile zekâ, iki ayrı dosyadır. DijiFlow Dictate'in kendisi minik — yaklaşık 12 MB. Asıl ağır kısım Whisper konuşma modelleridir; seçtiğinize göre kabaca 300 MB ile 6 GB arasında değişirler. Büyük modeller zorlu seste genelde daha doğrudur ama donanımınızdan daha fazlasını ister; bu yüzden size uyan hız-doğruluk dengesini siz seçersiniz.

Bir modeli bir kez indirirsiniz; ondan sonra yazıya dökme hiç internet gerektirmez. İşte o tek seferlik adım, sesinizin makinenizde kalabilmesinin tam nedenidir.

CoreML: modeli verimli yoldan çalıştırmak

Bir konuşma modeli, ancak pilinizi tüketmeden hızlı çalışırsa işe yarar. İşte bu, CoreML'in işidir; Apple'ın makine öğrenmesi modellerini kendi cihazlarında çalıştırmaya yarayan çerçevesi. Onu bir çevirmen ve trafik denetleyicisi gibi düşünün: Whisper gibi bir modeli alır ve onu donanımınızın en uygun parçalarını kullanarak nasıl çalıştıracağını çözer.

DijiFlow Dictate, Whisper'ı CoreML üzerinden çalışacak şekilde derleyen açık kaynaklı bir çalışma zamanı olan WhisperKit'i kullanır. Bu, modelin genel ve daha yavaş kod olarak çalışması yerine özellikle Apple donanımı için iyileştirildiği anlamına gelir; böylece dikte, sistem kaynaklarına hafif yüklenirken doğal konuşmaya ayak uydurur. Ve hepsi yerelde olur — CoreML bir bulut hizmeti değildir. Uygulamaların akıllı özellikleri gizli ve çevrimdışı çalıştırmasını sağlayan işletim sisteminin bir parçasıdır.

Apple Silicon: her şeyi anlık kılan çip

Son parça donanım. Modern Mac'lerde bu, Apple Silicon demek — macOS 14 ya da sonrasını çalıştıran makinelerdeki M serisi çipler. Bu çipler, makine öğrenmesi modellerini hızlı ve çok az güçle çalıştırmak üzere özel olarak üretilmiş bir silikon bölümü olan ayrılmış bir Neural Engine içerir; fazladan güç gerektiğinde GPU da Metal aracılığıyla devreye girer.

Bunların hiçbirini siz yapılandırmazsınız. CoreML işi doğru donanıma otomatik olarak dağıtır; siz yalnızca konuşursunuz ve çip onu gerçek zamanlı olarak halleder. İşte cihaz üstü tasarımın sessiz avantajı bu: Mac'inizi tepkisel hissettiren aynı silikon, gizli dikteyi de uygulanabilir kılan şeydir.

Baştan sona tüm boru hattı

Üç parçayı sıraya koyun, gidiş geliş kısadır — ve tümüyle yereldir.

  1. Siz konuşursunuz

    Mikrofonunuzdan gelen ses cihazda yakalanır, hiçbir yere aktarılmaz.

  2. Whisper, CoreML aracılığıyla Neural Engine'de çalışır

    Model, sesi tam orada Apple Silicon üzerinde, gerçek zamanlı olarak kelimeye çevirir.

  3. Metin imlecinize düşer

    Kelimeleriniz, zaten açık olan hangi uygulamaysa orada belirir. Hiçbir şey dışarı gönderilmez, bu yüzden sızacak hiçbir şey de yoktur.

Özetle

Model makinenizde yaşar, bu yüzden yazıya dökme yalnızca yerel bir hesaplamadır — sesinizi saklayacak, ele geçirecek ya da sessizce tutacak bir sunucu döngüde yoktur.

Bir kez indirin, sonra sonsuza dek çevrimdışı

Çoğu ses aracı, uygulama simgesi takmış bulut hizmetleridir: her seferinde bir bağlantı ve bir hesap isterler, çünkü sizi anlayan model başkasının donanımında yaşar. DijiFlow Dictate bunu tersine çevirir — bir kez kurarsınız ve iş çipinize taşınır.

Nasıl davranırDijiFlow (cihaz üstü)Bulut dikte
Tek seferlik indirmeden sonra çalışır
İnternetsiz yazıya döker
Hesap gerektirmez
Ses cihazınızda kalır

Ve Mac'in ötesinde

Aynı cihaz üstü yaklaşım, DijiFlow Dictate'in AMD, Intel ve NVIDIA GPU'larında çalıştığı Windows 10 ve 11'e de uzanır. NVIDIA donanımı CUDA ve güncel bir sürücü ister, ama ilke aynıdır: konuşmanız yerelde yazıya dökülür ve hiçbir şey dışarı gönderilmez.

Numara yok, sadece iyi mühendislik

Burada egzotik hiçbir şey olmuyor. DijiFlow Dictate açık, iyi anlaşılmış teknolojiler üzerine kurulu — konuşma modeli için Whisper, çalışma zamanı için WhisperKit ve CoreML, donanım için Apple Silicon. Asıl önemli karar, hepsini cihazınızda tutmak; böylece sesinizi kimseye teslim etmeden modern diktenin pratikliğini elde edersiniz — Free, Trial ve Pro genelinde.

Okumaktansa hissetmeyi yeğliyorsanız, gizli, cihaz üstü dikteyi Pro planında 30 gün boyunca ücretsiz deneyebilirsiniz.

DijiFlow DictateDijiFlow Dictate

DijiFlow Dictate Ekibi

Gizli, cihaz üzerinde çalışan dikte ve sesinizle daha fazlasını yapmaya dair notlar.

Eller serbest dikte etmeye bugün başlayın.

90+ dilde gizli, %100 cihaz üzerinde ses-yazı dönüşümü — sonsuza dek ücretsiz, daha fazlasına ihtiyaç duyduğunuzda Pro.