Free、Trial 还是 Pro:选择适合你的 DijiFlow 方案(以及每种方案包含的内容)
对比 DijiFlow Dictate 的 Free、Trial 和 Pro 方案。清楚了解每个层级包含的具体内容,从而选择适合自己的设备端听写方案。
您的购物车中有 %itemCount%。合计 %total%
DijiFlow Dictate 如何借助 Whisper、CoreML 和 Apple Silicon,完全在你的设备上把语音转换为文字。用通俗的语言讲解。
多数口述都感觉像变魔术,直到你问出那个明摆着的问题:我的声音究竟去了哪里?用 DijiFlow Dictate,诚实的答案是「哪儿也没去」。你一开口,文字便出现在光标处,而没有一个字传往服务器。无账户、无上传、无遥测。这不是末了才加装上去的一句隐私承诺——它是从这款软件如何构建中自然得出的。
三个广为人知的部件让它运转:Whisper,负责聆听的那个开放语音模型;CoreML,让它在 Mac 上高效运行的框架;以及 Apple Silicon,让它感觉起来即时的芯片。无需任何先备知识——下面用大白话把每一个讲清楚。
DijiFlow Dictate 的核心是 Whisper,OpenAI 出品的一系列开源语音识别模型。说白了,语音模型就是一个非常庞大的模式匹配器,它在海量的音频及其对应转写上训练而成。它从这些数据里学到,人们发出的声音如何对应上他们想表达的词——跨越各种口音、背景噪声,以及真实语流里那些自然的停顿。
当你口述时,Whisper 会从你的麦克风音频里预测出最可能的词序列,而它确实很擅长这件事。对清晰语音,它的准确率达到约 98%,而最强的版本 Whisper large-v3 能处理多达 90+ 种语言。因为它读的是上下文,而非一次只匹配一个词,它能应付人们实际说话时那种凌乱的样子。
这一点会让人意外:软件和「智能」是两个不同的文件。DijiFlow Dictate 本身很小——约 12 MB。Whisper 语音模型才是重的那部分,视你所选而定,从大约 300 MB 到 6 GB 不等。更大的模型在处理困难音频时通常更准,但对你的硬件要求也更高,所以你来选定速度与准确率之间那个适合你的平衡。
模型只需下载一次;此后,转写完全不需要互联网。正是这一次性的步骤,才让你的声音得以留在你的机器上。
一个语音模型,只有在又快又不耗光电量的情况下运行,才真正有用。这正是 CoreML 的职责,苹果用于在其设备上运行机器学习模型的框架。把它想成一个翻译兼调度员:它接过一个像 Whisper 这样的模型,盘算出如何动用你硬件中最合适的部分来运行它。
DijiFlow Dictate 使用 WhisperKit,一个把 Whisper 编译为通过 CoreML 运行的开源运行时。这意味着模型是专为苹果硬件优化的,而不是作为通用、更慢的代码来跑,于是口述既能跟上自然语流的节奏,又对系统资源很轻省。而这一切都发生在本地——CoreML 不是云端服务。它是操作系统的一部分,让软件能够私密、离线地运行各种智能功能。
最后一块是硬件。在现代 Mac 上,那就是 Apple Silicon——运行 macOS 14 或更高版本的机器里那一系列 M 系列芯片。这些芯片内含一个专用的 Neural Engine,一块专为又快又省电地运行机器学习模型而打造的硅片区域,而当需要额外马力时,还能通过 Metal 调用 GPU。
这些你一概不用配置。CoreML 会自动把工作分摊到合适的硬件上;你只管开口说,芯片实时把它处理掉。这正是设备端设计那份不动声色的优势:那块让你的 Mac 感觉灵敏的硅片,正是让私密口述切实可行的东西。
把这三个部件依序排好,这趟来回又短——而且完全在本地。
来自麦克风的音频在设备上被采集,绝不向任何地方传输。
模型当场在 Apple Silicon 上把声音变成文字,实时进行。
你的话出现在你早已使用的那个软件里。没有任何内容被发出去,所以也没有任何东西可供泄露。
核心要点
模型就住在你的机器上,因此转写不过是本地计算——回路里没有服务器去存储、拦截或悄悄留存你的声音。
多数语音工具都是披着软件图标的云端服务:它们每次都需要联网和账户,因为那个理解你的模型住在别人的硬件上。DijiFlow Dictate 反其道而行——你只装一次,工作便挪到你的芯片上。
| 它表现如何 | DijiFlow(设备端) | 云端口述 |
|---|---|---|
| 一次性下载后即可使用 | ✓ | ✗ |
| 无网络也能转写 | ✓ | ✗ |
| 无需账户 | ✓ | ✗ |
| 音频留在你的设备上 | ✓ | ✗ |
同样的设备端做法延伸到了 Windows 10 和 11,在那里 DijiFlow Dictate 运行于 AMD、Intel 和 NVIDIA 的 GPU 上。NVIDIA 硬件需要 CUDA 和一个较新的驱动,但原理一模一样:你的语音在本地转写,没有任何东西被发出去。
这里没有任何玄乎的事情发生。DijiFlow Dictate 构建于开放、广为人知的技术之上——语音模型用 Whisper,运行时用 WhisperKit 和 CoreML,硬件用 Apple Silicon。真正要紧的那个决定,是把这一切都留在你的设备上,于是你享有现代口述的便利,却从不必把你的声音交给任何人——在免费版、Trial 和 Pro 中皆然。
如果你宁愿亲身感受,也不想光读它,你可以在 Pro 版上免费试用 30 天私密的设备端口述。
私密、100% 设备端的语音转文字,支持 90+ 种语言——永久免费,需要更多时升级 Pro。