Voice-Driven Coding: Dictation for Developers (Comments, Docs, Prompts, and Commit Messages)
developer productivity1 min read

用语音写代码:面向开发者的听写(注释、文档、提示词和提交信息)

使用设备端听写,更快地撰写注释、文档、AI 提示词和提交信息,每个字都保持私密,并完全离线运行。

你不会去「打」一整个代码库。你打的是语法,然后围着它写散文——解释「为什么」的注释、文档字符串、提交说明、PR 描述,还有那段终于让 AI 助手照你本意行事的长提示词。一天的时间,就漏在那些散文里。从一副为符号而调的键盘,切换到一副为完整句子而调的键盘,每次都打断你的节奏。

语音能修好这一部分,又不碰那个本就运转良好的部分。双手留在键上处理逻辑。口述则接管包裹在外的语言。

  • ~98%
    清晰语音的识别准确率
  • 90+
    种语言在设备端转写
  • 0
    字节音频或代码被上传

语音真正能立足的地方

这不是要你去口述函数名,或是把一个正则表达式念出来。硬逼着用嗓子去说精确语法,是在跟工具较劲,而且必输。胜算在自然语言这一层——在那里,你组织的是想法而非符号——而在那里,说话以巨大优势胜过打字。

  • 注释与文档字符串。解释一个函数为何存在,而不只是它做了什么,说出来比打出来容易。把来龙去脉讲一遍,再把措辞收拾干净。
  • 提交说明与 PR 描述。「改了什么、为什么改」的概述,本就是散文。说出来能让你不至于退回到一句帮不上任何人的简短交代上去,到评审时谁都得益。
  • AI 提示词。引导一个编码助手是一场对话。口述一段详尽、结构清晰的提示词,比打出来更快,而那些额外的上下文往往能换来更好的回答。
  • 文档与 README。安装步骤、架构说明、迁移指南,叙述出来会更自然,尤其是初稿。

这道速度差并不微妙

多数人打字速度在每分钟 40 到 60 个词上下。多数人说话能达到 130 到 150。对于提示词里一段交代上下文的文字,或一条详尽的提交说明,这就是几秒钟与一分钟机械劳作之间的差别——那一分钟,你本想用来思考。

打字约 40–60 wpm
说话约 130–150 wpm

你照样会审阅和编辑,就跟你对任何打出来的东西所做的一样。区别在于,你是从一份完整的初稿起步,而不是面对空行上一个闪烁的光标。

它如何融入你的编辑器

DijiFlow Dictate 驻留在菜单栏里,不碍事。没有窗口要管理,也没有什么要复制粘贴,因为文字会落在你光标已在的地方。

  1. 设一次快捷键

    选一个全局快捷键。它在全系统通用,所以你永远不必为每个软件单独配置。

  2. 按下它,然后说

    以正常语速讲——在你的编辑器里、在终端的提交提示里、在文档文件里,或在助手的输入框里。

  3. 文字落在光标处

    你的话会出现在当前聚焦的那个软件里——IDE、浏览器或终端——而不改变你的工作方式。

因为它是一个全局快捷键,而非逐个工具的集成,同一套流程便能覆盖 VS Code、JetBrains、终端里的 Vim、浏览器里的一个 PR,以及你的 AI 助手。无需为每个编辑器单独安装。

当内容是代码时,设备端为何更要紧

源代码、内部文档和提示词,默认就承载着敏感材料:专有逻辑、基础设施细节、客户名号、未发布的计划。云端口述会把你的语音送往远端服务器去处理——而当你口述的话语描述的是受保密协议约束的代码,或是你绝不会粘进公开工具的系统时,这就成了一个实打实的问题。

DijiFlow Dictate 完全在你的机器上运行。它通过 WhisperKit 和 CoreML 在本地使用 OpenAI 的 Whisper 语音模型,因此没有任何内容被上传。无账户、无云端往返、无遥测。模型只下载一次之后——它们视你想要的准确率而定,从大约 300 MB 到 6 GB 不等——软件便完全离线运行。软件本身约 12 MB。你可以在飞机上、在严格管控的企业网络里口述,也可以在描述机密架构时口述,而这一切都不会离开设备。

核心要点

专有代码、提示词和架构说明永不离开机器——没有服务器握着一份转写,可供入侵、记录或交出。

通用模型从未听过的那些词

技术性的散文里满是字典查不到的词:你的服务名、内部缩写、库的名字。Pro 中的自定义词汇能让你把这些锁定下来,于是它们会被正确转写,而不是变成最接近的那个字典词条。再加上设备端的 90+ 种语言,一支分布式团队便能用各自的思考语言来口述,而这一切都不会经由云端中转。

几个让它顺手的习惯

  • 口述散文,手打符号。把句子说出来,再用手添上反引号、标识符和运算符。
  • 把标点说出来。模型对自然措辞处理得很好,但把句号和逗号说出来,能让冗长的技术句子保持可读。
  • 把上下文前置到提示词里。把文件、目标和约束完整地描述出来。说话让这份周全几乎不费力气。
  • 先成稿,再打磨。先出声把完整的初稿过一遍,再为求精准去编辑。这胜过一边写一边逐字求完美。

用你自己的工作流试一试

从免费版起步,它永久免费;或者拿一整天真实的提交、提示词和 PR,跑一遍完整的 30 天 Trial,再决定要不要 Pro。如果在编码任务之间口述散文的做法留住了你,它所消除的摩擦很快就会值回票价。

如果你想让口述的初稿直接落进你的注释、提交和提示词里,而没有一个字碰到云端,那就看看 DijiFlow Dictate Pro 如何贴合你的工作流

DijiFlow DictateDijiFlow Dictate

DijiFlow Dictate 团队

关于私密、设备端听写,以及用声音完成更多工作的笔记。

即刻开始免动手听写 今天就试。

私密、100% 设备端的语音转文字,支持 90+ 种语言——永久免费,需要更多时升级 Pro。