Type in 90+ Languages, Fully Offline: Multilingual Dictation Without the Cloud

DijiFlow Dictate2026年6月4日1 min read

用 90+ 种语言输入，完全离线：无需云端的多语言听写

借助 DijiFlow，在你自己的设备上完整地用 90+ 种语言听写。无云端、无账户、无遥测。准确率约 98%，一次下载之后即可完全离线运行。

句子说到一半切换语言，多数口述工具就乱了套。它们把每个词都发往远端服务器，把你锁在每次会话只用一种语言的设定里，网络一断就哑了火。DijiFlow Dictate 的做法恰好相反：它通过 WhisperKit 和 CoreML 在你自己的机器上运行 OpenAI 的 Whisper 语音模型，让你能用 90+ 种语言口述，而不会有哪怕一个字节的音频离开你的设备。

正是「把模型留在本地」这一个决定，才让多语言口述真正变得实用。没有上传，没有等待网络，也没有要计量的云端分钟数。你按下快捷键、开口说，文字便落在光标处，你正用着哪个软件，它就出现在哪个软件里。

90+
种语言在设备端转写
29
种配有专属词汇调校
100%
模型下载后完全离线

转写 90+ 种语言，29 种为你的用词专门调校

把这两个数字说清楚是值得的，因为它们代表两回事。Whisper large-v3 模型能转写 90+ 种语言——这是 DijiFlow Dictate 可以变成文字的全部范围。在这个范围之内，有 29 种语言额外获得了一层词汇调校，于是领域术语、人名，以及你实际会用的措辞，都能更干净地呈现出来，而不是靠猜。

所以广度够宽，深度也是实打实的。用西班牙语口述一段，插入一个英文技术术语，再用德语收个尾——全在同一套设置里完成，不用切模式，也不用翻菜单。对清晰语音而言，准确率落在约 98% 上下，口述速度比打字快好几倍。当替代方案是在一套你并非天天用的键盘布局上找键位时，这道落差会迅速拉大。

为什么离线是关键，而非脚注

跨语言工作往往意味着要处理你并不想交给第三方的材料：客户往来函件、法律文本、医疗记录、研究访谈、内部文档。那段音频一旦送往云端服务，它就成了别人要去回答的问题。设备端转写彻底取消了这个问题。无账户、无上传、无遥测——你的声音以及它所变成的文字，永远不会离开你面前这台机器。

离线还剥离了那些悄悄拖垮多语言工作的摩擦：

没有往返延迟。转写在本地运行，因此不必等一台遥远的服务器作答。
无需联网。在飞机上、在地下室办公室里、在每隔几分钟就掉线的酒店 Wi-Fi 上——口述照常运转。
没有按分钟计费的计量表。想说多少就说多少，用任何语言，都不必盯着用量计数器。

核心要点

因为每一种语言都在设备端运行，口述在零网络下也能用——飞行途中、离网状态，或任何 Wi-Fi 罢工的地方。

设备端多语言对比云端

把它们并排放在一起，权衡取舍便一目了然：

能力	DijiFlow（设备端）	云端口述
音频留在你的机器上	✓	✗
无网络也能用	✓	✗
句中切换语言	✓	✗
无账户、无按分钟计费	✓	✗

它在空间上花了多少，又在速度上还回多少

软件本身很小——大约 12 MB。语音模型是单独的，只需下载一次，视你所选而定，从大约 300 MB 到 6 GB 不等。首次下载之后，一切完全离线运行。更大的模型在处理口音、混合词汇和较冷门的语言时更有把握；更小的模型则对资源更轻省。在这条线上坐在哪个位置，由你决定。

日常使用中，DijiFlow Dictate 驻留在你的菜单栏里，不碍事。没有窗口要管理，也没有文档要从中复制。邮件客户端、代码编辑器、聊天软件、文字处理器——只要你能在里面打字，就能在里面口述。

谁能从中获益最多

对于把语言切换当作工作日常的人，设备端多语言口述的回报最为可观：

笔译和口译人员在不同语言对之间起草和校审。
研究人员和记者转写访谈与笔记，又不必暴露原始素材。
双语职场人士每天用不止一种语言给同事和客户写东西。
任何注重隐私的人，他们单纯就是不愿让自己的语音碰到远端服务器。

用你真正会用的语言试一试

DijiFlow Dictate 有一个永久免费的免费版、一个含完整功能集的 30 天试用，以及一个 Pro 选项——你可以按月购买，也可以按 6 个月或 12 个月购买，或一次性购买终身授权。最诚实的检验，就是装上它、开始试用，用你真实的语言去口述——这是感受设备端转写如何契合你工作流的唯一办法。

如果一直缺的正是「永不离开你机器」的多语言口述，那就来看看 DijiFlow Dictate 如何贴合你的工作方式。