The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon2026年6月4日1 min read

DijiFlow 背后的技术：用通俗的语言讲清 Whisper、CoreML 和 Apple Silicon

DijiFlow Dictate 如何借助 Whisper、CoreML 和 Apple Silicon，完全在你的设备上把语音转换为文字。用通俗的语言讲解。

多数口述都感觉像变魔术，直到你问出那个明摆着的问题：我的声音究竟去了哪里？用 DijiFlow Dictate，诚实的答案是「哪儿也没去」。你一开口，文字便出现在光标处，而没有一个字传往服务器。无账户、无上传、无遥测。这不是末了才加装上去的一句隐私承诺——它是从这款软件如何构建中自然得出的。

三个广为人知的部件让它运转：Whisper，负责聆听的那个开放语音模型；CoreML，让它在 Mac 上高效运行的框架；以及 Apple Silicon，让它感觉起来即时的芯片。无需任何先备知识——下面用大白话把每一个讲清楚。

~12 MB
软件下载体积
300 MB–6 GB
语音模型，仅需下载一次
Neural Engine
工作真正运行之处

Whisper：把声音变成文字

DijiFlow Dictate 的核心是 Whisper，OpenAI 出品的一系列开源语音识别模型。说白了，语音模型就是一个非常庞大的模式匹配器，它在海量的音频及其对应转写上训练而成。它从这些数据里学到，人们发出的声音如何对应上他们想表达的词——跨越各种口音、背景噪声，以及真实语流里那些自然的停顿。

当你口述时，Whisper 会从你的麦克风音频里预测出最可能的词序列，而它确实很擅长这件事。对清晰语音，它的准确率达到约 98%，而最强的版本 Whisper large-v3 能处理多达 90+ 种语言。因为它读的是上下文，而非一次只匹配一个词，它能应付人们实际说话时那种凌乱的样子。

为什么模型是单独下载的

这一点会让人意外：软件和「智能」是两个不同的文件。DijiFlow Dictate 本身很小——约 12 MB。Whisper 语音模型才是重的那部分，视你所选而定，从大约 300 MB 到 6 GB 不等。更大的模型在处理困难音频时通常更准，但对你的硬件要求也更高，所以你来选定速度与准确率之间那个适合你的平衡。

模型只需下载一次；此后，转写完全不需要互联网。正是这一次性的步骤，才让你的声音得以留在你的机器上。

CoreML：以高效的方式运行模型

一个语音模型，只有在又快又不耗光电量的情况下运行，才真正有用。这正是 CoreML 的职责，苹果用于在其设备上运行机器学习模型的框架。把它想成一个翻译兼调度员：它接过一个像 Whisper 这样的模型，盘算出如何动用你硬件中最合适的部分来运行它。

DijiFlow Dictate 使用 WhisperKit，一个把 Whisper 编译为通过 CoreML 运行的开源运行时。这意味着模型是专为苹果硬件优化的，而不是作为通用、更慢的代码来跑，于是口述既能跟上自然语流的节奏，又对系统资源很轻省。而这一切都发生在本地——CoreML 不是云端服务。它是操作系统的一部分，让软件能够私密、离线地运行各种智能功能。

Apple Silicon：让它即时的那枚芯片

最后一块是硬件。在现代 Mac 上，那就是 Apple Silicon——运行 macOS 14 或更高版本的机器里那一系列 M 系列芯片。这些芯片内含一个专用的 Neural Engine，一块专为又快又省电地运行机器学习模型而打造的硅片区域，而当需要额外马力时，还能通过 Metal 调用 GPU。

这些你一概不用配置。CoreML 会自动把工作分摊到合适的硬件上；你只管开口说，芯片实时把它处理掉。这正是设备端设计那份不动声色的优势：那块让你的 Mac 感觉灵敏的硅片，正是让私密口述切实可行的东西。

从头到尾的整条流水线

把这三个部件依序排好，这趟来回又短——而且完全在本地。

你开口说
来自麦克风的音频在设备上被采集，绝不向任何地方传输。
Whisper 经 CoreML 在 Neural Engine 上运行
模型当场在 Apple Silicon 上把声音变成文字，实时进行。
文字落在你的光标处
你的话出现在你早已使用的那个软件里。没有任何内容被发出去，所以也没有任何东西可供泄露。

核心要点

模型就住在你的机器上，因此转写不过是本地计算——回路里没有服务器去存储、拦截或悄悄留存你的声音。

下载一次，从此永久离线

多数语音工具都是披着软件图标的云端服务：它们每次都需要联网和账户，因为那个理解你的模型住在别人的硬件上。DijiFlow Dictate 反其道而行——你只装一次，工作便挪到你的芯片上。

它表现如何	DijiFlow（设备端）	云端口述
一次性下载后即可使用	✓	✗
无网络也能转写	✓	✗
无需账户	✓	✗
音频留在你的设备上	✓	✗

而且不止于 Mac

同样的设备端做法延伸到了 Windows 10 和 11，在那里 DijiFlow Dictate 运行于 AMD、Intel 和 NVIDIA 的 GPU 上。NVIDIA 硬件需要 CUDA 和一个较新的驱动，但原理一模一样：你的语音在本地转写，没有任何东西被发出去。

没有戏法，只有过硬的工程

这里没有任何玄乎的事情发生。DijiFlow Dictate 构建于开放、广为人知的技术之上——语音模型用 Whisper，运行时用 WhisperKit 和 CoreML，硬件用 Apple Silicon。真正要紧的那个决定，是把这一切都留在你的设备上，于是你享有现代口述的便利，却从不必把你的声音交给任何人——在免费版、试用版和 Pro 中皆然。

如果你宁愿亲身感受，也不想光读它，你可以在 Pro 版上免费试用 30 天私密的设备端口述。

DijiFlow Dictate 团队

关于私密、设备端听写，以及用声音完成更多工作的笔记。

上一篇面向写作者与学生的语音听写：更快地起草、记笔记、写文章下一篇面向写作者与学生的语音听写：更快地起草、记笔记、写文章

即刻开始免动手听写今天就试。

私密、100% 设备端的语音转文字，支持 90+ 种语言——永久免费，需要更多时升级 Pro。

获取 DijiFlow Pro 免费下载

商品已加入购物车！

DijiFlow 背后的技术：用通俗的语言讲清 Whisper、CoreML 和 Apple Silicon

Whisper：把声音变成文字

为什么模型是单独下载的

CoreML：以高效的方式运行模型

Apple Silicon：让它即时的那枚芯片

从头到尾的整条流水线

下载一次，从此永久离线

而且不止于 Mac

没有戏法，只有过硬的工程

DijiFlow Dictate 团队

即刻开始免动手听写 今天就试。

你可能还会喜欢

免费版、试用版还是 Pro：选择适合你的 DijiFlow 方案（以及每种方案包含的内容）

DijiFlow Dictate 入门：安装、快捷键与你的第一次听写

面向写作者与学生的语音听写：更快地起草、记笔记、写文章

即刻开始免动手听写今天就试。