The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon4 يونيو 20263 min read

التقنية وراء DijiFlow: شرح مبسّط لـ Whisper وCoreML وApple Silicon

كيف يحوّل DijiFlow Dictate صوتك إلى نص بالكامل على جهازك، باستخدام Whisper وCoreML وApple Silicon. شرح بلغة بسيطة.

يبدو معظم الإملاء كالسحر حتى تطرح السؤال البديهي: إلى أين يذهب صوتي فعلًا؟ مع DijiFlow Dictate، الإجابة الصادقة هي: لا مكان. تتحدّث، فيظهر النص عند مؤشّرك، ولا تنتقل كلمة واحدة إلى خادم. لا حساب، ولا رفع، ولا قياس عن بُعد. ليس هذا وعدًا بالخصوصية رُكِّب في النهاية — إنه نتيجة طبيعية لكيفية بناء التطبيق.

ثلاث قطع مفهومة جيّدًا تجعله يعمل: Whisper، نموذج الكلام المفتوح الذي يؤدّي الإنصات؛ وCoreML، الإطار الذي يشغّله بكفاءة على جهاز Mac؛ وApple Silicon، الشريحة التي تجعله يبدو فوريًّا. لا حاجة إلى معرفة مسبقة — وفي ما يلي كل واحدة بعبارات بسيطة.

~12 MB
حجم تنزيل التطبيق
300 MB–6 GB
نموذج الكلام، يُنزَّل مرة واحدة
Neural Engine
حيث يجري العمل فعلًا

Whisper: تحويل الصوت إلى كلمات

في قلب DijiFlow Dictate يقع Whisper، وهو عائلة من نماذج التعرّف على الكلام مفتوحة المصدر من OpenAI. نموذج الكلام، بعبارات بسيطة، مُطابِق أنماط ضخم جدًّا دُرِّب على كميات هائلة من الصوت مقترنًا بنصّه. ومن تلك البيانات يتعلّم كيف تتطابق الأصوات التي يصدرها الناس مع الكلمات التي يقصدونها — عبر اللهجات والضوضاء الخلفية والسكتات الطبيعية في الكلام الحقيقي.

حين تُملي، يتنبّأ Whisper بالتسلسل الأرجح للكلمات من صوت ميكروفونك، وهو بارع في ذلك حقًّا. وفي الكلام الواضح يبلغ دقة نحو 98%، وأقدر إصداراته، Whisper large-v3، يتعامل مع ما يصل إلى 90+ لغة. ولأنه يقرأ السياق بدلًا من مطابقة كلمة كلمة، فإنه يتعامل مع الطريقة الفوضوية التي يتحدّث بها الناس فعلًا.

لماذا النموذج تنزيل منفصل

هذا هو الجزء الذي يفاجئ الناس: التطبيق والذكاء ملفّان مختلفان. أما DijiFlow Dictate نفسه فضئيل — نحو 12 MB. ونماذج الكلام Whisper هي الجزء الثقيل، وتتراوح بين 300 MB و6 GB تقريبًا تبعًا للنموذج الذي تختاره. النماذج الأكبر أدقّ عمومًا مع الصوت الصعب لكنها تطلب المزيد من عتادك، فتختار توازن السرعة والدقة الذي يناسبك.

تُنزِّل نموذجًا مرة واحدة؛ وبعد ذلك لا يحتاج التفريغ إلى أي إنترنت إطلاقًا. تلك الخطوة لمرة واحدة هي بالضبط لماذا يمكن لصوتك أن يبقى على جهازك.

CoreML: تشغيل النموذج بالطريقة الأكفأ

لا ينفع نموذج الكلام إلا إن عمل بسرعة دون استنزاف بطاريتك. تلك هي مهمّة CoreML، إطار Apple لتشغيل نماذج تعلّم الآلة على أجهزتها. اعتبره مترجمًا ومنظّم حركة: يأخذ نموذجًا مثل Whisper ويتبيّن كيف يشغّله مستخدمًا أنسب أجزاء عتادك.

تستخدم DijiFlow Dictate إطار WhisperKit، وهو بيئة تشغيل مفتوحة المصدر تترجم Whisper ليعمل من خلال CoreML. وهذا يعني أن النموذج محسّن خصّيصًا لعتاد Apple بدلًا من أن يعمل كشيفرة عامة أبطأ، فيجاري الإملاء الكلام الطبيعي مع البقاء خفيفًا على موارد النظام. ويحدث ذلك كله محليًّا — CoreML ليس خدمة سحابية. إنه جزء من نظام التشغيل يتيح للتطبيقات تشغيل مزايا ذكية بخصوصية ودون اتصال.

Apple Silicon: الشريحة التي تجعله فوريًّا

القطعة الأخيرة هي العتاد. على أجهزة Mac الحديثة يعني ذلك Apple Silicon — شرائح سلسلة M في الأجهزة التي تعمل بنظام macOS 14 أو ما بعده. تتضمّن هذه الشرائح Neural Engine مخصّصًا، وهو قسم من السيليكون مبنيّ خصّيصًا لتشغيل نماذج تعلّم الآلة بسرعة وبطاقة ضئيلة جدًّا، مع توفّر وحدة معالجة الرسوميات من خلال Metal حين تساعد قوة إضافية.

أنت لا تضبط أيًّا من هذا. يوزّع CoreML العمل عبر العتاد المناسب تلقائيًّا؛ وأنت تتحدّث فحسب، فتتولّى الشريحة ذلك في الزمن الحقيقي. تلك هي الميزة الهادئة للتصميم على الجهاز: السيليكون نفسه الذي يجعل جهاز Mac لديك يبدو سريع الاستجابة هو ما يجعل الإملاء الخاصّ عمليًّا.

سير العمل بأكمله، من البداية إلى النهاية

رتّب القطع الثلاث ترتيبًا وتصير رحلة الذهاب والإياب قصيرة — ومحليّةً بالكامل.

أنت تتحدّث
يُلتقَط الصوت من ميكروفونك على الجهاز، ولا يُبثّ إلى أي مكان أبدًا.
يعمل Whisper عبر CoreML على Neural Engine
يحوّل النموذج الصوت إلى كلمات هناك مباشرةً على Apple Silicon، في الزمن الحقيقي.
يحطّ النص عند مؤشّرك
تظهر كلماتك في أي تطبيق أنت فيه أصلًا. لا شيء يُرسَل خارجًا، فلا شيء يتسرّب.

الخلاصة الأساسية

النموذج يقيم على جهازك، فالتفريغ مجرّد حوسبة محلية — لا خادم في الحلقة ليخزّن صوتك أو يعترضه أو يحتفظ به بهدوء.

نزِّل مرة واحدة، ثم دون اتصال إلى الأبد

معظم أدوات الصوت خدمات سحابية ترتدي أيقونة تطبيق: تحتاج إلى اتصال وحساب في كل مرة، لأن النموذج الذي يفهمك يقيم على عتاد شخص آخر. تقلب DijiFlow Dictate ذلك — تثبّت مرة واحدة، وينتقل العمل إلى شريحتك.

كيف يتصرّف	DijiFlow (على الجهاز)	الإملاء السحابي
يعمل بعد تنزيل لمرة واحدة	✓	✗
يُفرّغ دون إنترنت	✓	✗
لا يتطلّب حسابًا	✓	✗
الصوت يبقى على جهازك	✓	✗

وما بعد جهاز Mac

يمتدّ النهج نفسه على الجهاز إلى Windows 10 و11، حيث تعمل DijiFlow Dictate على وحدات معالجة الرسوميات من AMD وIntel وNVIDIA. يحتاج عتاد NVIDIA إلى CUDA وتعريف حديث، لكن المبدأ مطابق: يُفرَّغ كلامك محليًّا، ولا يُرسَل شيء خارجًا.

لا حيلة، بل هندسة جيّدة فحسب

لا شيء غريب يحدث هنا. DijiFlow Dictate مبنيّة على تقنية مفتوحة ومفهومة جيّدًا — Whisper لنموذج الكلام، وWhisperKit وCoreML لبيئة التشغيل، وApple Silicon للعتاد. القرار الذي يهمّ هو إبقاء كل ذلك على جهازك، فتنال راحة الإملاء الحديث دون أن تسلّم صوتك لأحد قط، عبر الباقات المجانية والتجربة المجانية وPro.

إن كنت تفضّل أن تشعر به على أن تقرأ عنه، يمكنك تجربة الإملاء الخاصّ على الجهاز مجانًا لمدة 30 يومًا على باقة Pro.