The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon1 min read

DijiFlow 背后的技术:用通俗的语言讲清 Whisper、CoreML 和 Apple Silicon

DijiFlow Dictate 如何借助 Whisper、CoreML 和 Apple Silicon,完全在你的设备上把语音转换为文字。用通俗的语言讲解。

多数口述都感觉像变魔术,直到你问出那个明摆着的问题:我的声音究竟去了哪里?用 DijiFlow Dictate,诚实的答案是「哪儿也没去」。你一开口,文字便出现在光标处,而没有一个字传往服务器。无账户、无上传、无遥测。这不是末了才加装上去的一句隐私承诺——它是从这款软件如何构建中自然得出的。

三个广为人知的部件让它运转:Whisper,负责聆听的那个开放语音模型;CoreML,让它在 Mac 上高效运行的框架;以及 Apple Silicon,让它感觉起来即时的芯片。无需任何先备知识——下面用大白话把每一个讲清楚。

  • ~12 MB
    软件下载体积
  • 300 MB–6 GB
    语音模型,仅需下载一次
  • Neural Engine
    工作真正运行之处

Whisper:把声音变成文字

DijiFlow Dictate 的核心是 Whisper,OpenAI 出品的一系列开源语音识别模型。说白了,语音模型就是一个非常庞大的模式匹配器,它在海量的音频及其对应转写上训练而成。它从这些数据里学到,人们发出的声音如何对应上他们想表达的词——跨越各种口音、背景噪声,以及真实语流里那些自然的停顿。

当你口述时,Whisper 会从你的麦克风音频里预测出最可能的词序列,而它确实很擅长这件事。对清晰语音,它的准确率达到约 98%,而最强的版本 Whisper large-v3 能处理多达 90+ 种语言。因为它读的是上下文,而非一次只匹配一个词,它能应付人们实际说话时那种凌乱的样子。

为什么模型是单独下载的

这一点会让人意外:软件和「智能」是两个不同的文件。DijiFlow Dictate 本身很小——约 12 MB。Whisper 语音模型才是重的那部分,视你所选而定,从大约 300 MB 到 6 GB 不等。更大的模型在处理困难音频时通常更准,但对你的硬件要求也更高,所以你来选定速度与准确率之间那个适合你的平衡。

模型只需下载一次;此后,转写完全不需要互联网。正是这一次性的步骤,才让你的声音得以留在你的机器上。

CoreML:以高效的方式运行模型

一个语音模型,只有在又快又不耗光电量的情况下运行,才真正有用。这正是 CoreML 的职责,苹果用于在其设备上运行机器学习模型的框架。把它想成一个翻译兼调度员:它接过一个像 Whisper 这样的模型,盘算出如何动用你硬件中最合适的部分来运行它。

DijiFlow Dictate 使用 WhisperKit,一个把 Whisper 编译为通过 CoreML 运行的开源运行时。这意味着模型是专为苹果硬件优化的,而不是作为通用、更慢的代码来跑,于是口述既能跟上自然语流的节奏,又对系统资源很轻省。而这一切都发生在本地——CoreML 不是云端服务。它是操作系统的一部分,让软件能够私密、离线地运行各种智能功能。

Apple Silicon:让它即时的那枚芯片

最后一块是硬件。在现代 Mac 上,那就是 Apple Silicon——运行 macOS 14 或更高版本的机器里那一系列 M 系列芯片。这些芯片内含一个专用的 Neural Engine,一块专为又快又省电地运行机器学习模型而打造的硅片区域,而当需要额外马力时,还能通过 Metal 调用 GPU。

这些你一概不用配置。CoreML 会自动把工作分摊到合适的硬件上;你只管开口说,芯片实时把它处理掉。这正是设备端设计那份不动声色的优势:那块让你的 Mac 感觉灵敏的硅片,正是让私密口述切实可行的东西。

从头到尾的整条流水线

把这三个部件依序排好,这趟来回又短——而且完全在本地。

  1. 你开口说

    来自麦克风的音频在设备上被采集,绝不向任何地方传输。

  2. Whisper 经 CoreML 在 Neural Engine 上运行

    模型当场在 Apple Silicon 上把声音变成文字,实时进行。

  3. 文字落在你的光标处

    你的话出现在你早已使用的那个软件里。没有任何内容被发出去,所以也没有任何东西可供泄露。

核心要点

模型就住在你的机器上,因此转写不过是本地计算——回路里没有服务器去存储、拦截或悄悄留存你的声音。

下载一次,从此永久离线

多数语音工具都是披着软件图标的云端服务:它们每次都需要联网和账户,因为那个理解你的模型住在别人的硬件上。DijiFlow Dictate 反其道而行——你只装一次,工作便挪到你的芯片上。

它表现如何DijiFlow(设备端)云端口述
一次性下载后即可使用
无网络也能转写
无需账户
音频留在你的设备上

而且不止于 Mac

同样的设备端做法延伸到了 Windows 10 和 11,在那里 DijiFlow Dictate 运行于 AMD、Intel 和 NVIDIA 的 GPU 上。NVIDIA 硬件需要 CUDA 和一个较新的驱动,但原理一模一样:你的语音在本地转写,没有任何东西被发出去。

没有戏法,只有过硬的工程

这里没有任何玄乎的事情发生。DijiFlow Dictate 构建于开放、广为人知的技术之上——语音模型用 Whisper,运行时用 WhisperKit 和 CoreML,硬件用 Apple Silicon。真正要紧的那个决定,是把这一切都留在你的设备上,于是你享有现代口述的便利,却从不必把你的声音交给任何人——在免费版、Trial 和 Pro 中皆然。

如果你宁愿亲身感受,也不想光读它,你可以在 Pro 版上免费试用 30 天私密的设备端口述。

DijiFlow DictateDijiFlow Dictate

DijiFlow Dictate 团队

关于私密、设备端听写,以及用声音完成更多工作的笔记。

即刻开始免动手听写 今天就试。

私密、100% 设备端的语音转文字,支持 90+ 种语言——永久免费,需要更多时升级 Pro。