Voice-Driven Coding: Dictation for Developers (Comments, Docs, Prompts, and Commit Messages)
developer productivity6 min read

Lập trình bằng giọng nói: đọc chính tả cho lập trình viên (chú thích, tài liệu, prompt và thông điệp commit)

Dùng đọc chính tả trên thiết bị để viết chú thích, tài liệu, prompt AI và thông điệp commit nhanh hơn, với mọi từ được giữ riêng tư và hoàn toàn ngoại tuyến.

Bạn không gõ ra cả một codebase. Bạn gõ cú pháp, rồi bạn viết phần văn xuôi quanh nó — chú thích giải thích lý do, docstring, thông điệp commit, mô tả PR, lời nhắc dài rốt cuộc khiến trợ lý AI làm đúng điều bạn muốn. Phần văn xuôi đó là nơi cả ngày rò rỉ mất. Chuyển từ một bàn phím điều chỉnh cho ký hiệu sang một bàn phím điều chỉnh cho câu cú hoàn chỉnh phá vỡ nhịp điệu của bạn mỗi lần.

Giọng nói sửa được phần đó mà không động đến phần vốn đã ổn. Đôi tay vẫn ở trên phím cho phần logic. Đọc chính tả lo phần ngôn ngữ bao quanh nó.

  • ~98%
    độ chính xác với giọng nói rõ ràng
  • 90+
    ngôn ngữ được phiên âm trên thiết bị
  • 0
    byte âm thanh hay mã được tải lên

Nơi giọng nói thực sự xứng đáng có chỗ đứng

Đây không phải chuyện đọc chính tả tên hàm hay nói ra một biểu thức chính quy. Ép cú pháp chính xác qua giọng nói là chống lại công cụ và thua cuộc. Phần thắng nằm ở lớp ngôn ngữ tự nhiên, nơi bạn đang soạn ý tưởng thay vì ký hiệu — và ở đó, nói vượt trội so với gõ phím với khoảng cách rất lớn.

  • Chú thích và docstring. Giải thích vì sao một hàm tồn tại, chứ không chỉ nó làm gì, dễ nói hơn gõ. Nói rõ lý do, rồi gọt giũa câu chữ.
  • Thông điệp commit và mô tả PR. Bản tóm tắt về cái gì đã đổi và vì sao là văn xuôi. Nói ra giúp bạn khỏi mặc định viết một câu cụt lủn chẳng giúp ích ai khi rà soát.
  • Lời nhắc cho AI. Điều hướng một trợ lý lập trình là một cuộc trò chuyện. Đọc chính tả một lời nhắc chi tiết, có cấu trúc tốt thì nhanh hơn gõ, và phần bối cảnh thêm vào thường tạo ra câu trả lời tốt hơn.
  • Tài liệu và README. Các bước thiết lập, ghi chú kiến trúc và hướng dẫn di trú đến nơi tự nhiên hơn khi được thuật lại, đặc biệt là bản nháp đầu.

Khoảng cách tốc độ chẳng hề mơ hồ

Phần lớn mọi người gõ đâu đó khoảng 40 đến 60 từ mỗi phút. Phần lớn mọi người nói ở 130 đến 150. Với một đoạn bối cảnh trong một lời nhắc hay một thông điệp commit kỹ lưỡng, đó là khác biệt giữa vài giây và một phút công sức máy móc mà bạn thà dành để suy nghĩ.

Gõ phím~40–60 wpm
Nói~130–150 wpm

Bạn vẫn rà soát và chỉnh sửa, đúng như với bất cứ thứ gì bạn gõ. Khác biệt là bạn khởi đầu từ một bản nháp hoàn chỉnh thay vì một con trỏ nhấp nháy trên một dòng trống.

Nó hòa vào trình soạn thảo của bạn ra sao

DijiFlow Dictate nằm trên thanh menu và không gây vướng víu. Không có cửa sổ phải quản lý và không có gì phải sao chép và dán, bởi văn bản hiện ra ngay nơi con trỏ của bạn đã ở đó.

  1. Đặt một phím tắt một lần

    Chọn một phím tắt toàn cục. Nó hoạt động trên toàn hệ thống, nên bạn không bao giờ phải thiết lập riêng cho từng ứng dụng.

  2. Nhấn nó và nói

    Nói với nhịp độ bình thường trong trình soạn thảo của bạn, một lời nhắc commit ở terminal, một tệp tài liệu, hay ô nhập liệu của một trợ lý.

  3. Văn bản hiện ra tại con trỏ

    Lời của bạn xuất hiện trong bất kỳ ứng dụng nào đang được lấy nét — IDE, trình duyệt hay terminal — mà không thay đổi cách bạn làm việc.

Vì nó là một phím tắt toàn cục duy nhất chứ không phải tích hợp riêng cho từng công cụ, cùng một luồng bao trùm VS Code, JetBrains, Vim trong terminal, một PR trên trình duyệt, và trợ lý AI của bạn. Không có gì phải cài đặt riêng cho mỗi trình soạn thảo.

Vì sao trên thiết bị càng quan trọng hơn khi đó là mã

Mã nguồn, tài liệu nội bộ và lời nhắc mặc nhiên mang theo tài liệu nhạy cảm: logic độc quyền, chi tiết hạ tầng, tham chiếu khách hàng, kế hoạch chưa công bố. Đọc chính tả trên đám mây gửi giọng nói của bạn đến một máy chủ từ xa để xử lý — đó là một vấn đề thực sự khi những chữ bạn đang nói mô tả mã thuộc diện bảo mật hay các hệ thống bạn chẳng bao giờ dán vào một công cụ công khai.

DijiFlow Dictate chạy hoàn toàn trên máy của bạn. Nó dùng các mô hình giọng nói Whisper của OpenAI ở cục bộ thông qua WhisperKit và CoreML, nên không có gì được tải lên. Không tài khoản, không vòng lặp tới đám mây, không thu thập dữ liệu. Sau khi mô hình tải về một lần — chúng có dung lượng từ khoảng 300 MB đến 6 GB tùy độ chính xác bạn muốn — ứng dụng hoạt động hoàn toàn ngoại tuyến. Bản thân ứng dụng khoảng 12 MB. Bạn có thể đọc chính tả trên máy bay, bên trong một mạng doanh nghiệp khép kín, hay trong khi mô tả kiến trúc bảo mật, và không gì trong đó rời khỏi thiết bị.

Điểm cốt lõi

Mã độc quyền, lời nhắc và ghi chú kiến trúc không bao giờ rời khỏi máy — không có máy chủ nào giữ một bản phiên âm để bị xâm phạm, ghi nhật ký hay giao nộp.

Những thuật ngữ mà một mô hình tổng quát chưa từng nghe

Văn xuôi kỹ thuật đầy những chữ chẳng từ điển nào biết: tên dịch vụ của bạn, từ viết tắt nội bộ, tên thư viện. Từ vựng tùy chỉnh trong Pro cho phép bạn cố định những thứ đó để chúng được phiên âm chính xác thay vì biến thành từ điển gần đúng nhất. Và với 90+ ngôn ngữ trên thiết bị, một đội ngũ phân tán có thể đọc chính tả bằng bất kỳ ngôn ngữ nào họ nghĩ trong đầu, không gì trong đó định tuyến qua đám mây.

Vài thói quen khiến nó ăn khớp

  • Nói phần văn xuôi, gõ phần ký hiệu. Đọc chính tả câu, rồi tự tay thêm dấu backtick, định danh và toán tử.
  • Đọc dấu câu của bạn. Mô hình xử lý cách diễn đạt tự nhiên rất tốt, nhưng nói rõ dấu chấm và dấu phẩy giữ cho những câu kỹ thuật dài dễ đọc.
  • Đặt bối cảnh lên đầu lời nhắc. Mô tả đầy đủ tệp, mục tiêu và các ràng buộc. Nói khiến sự kỹ lưỡng đó gần như không tốn công.
  • Nháp trước, gọt sau. Đưa ra một bản đầu hoàn chỉnh bằng lời, rồi chỉnh sửa cho chuẩn xác. Cách đó hơn hẳn việc cố hoàn thiện từng chữ trong lúc làm.

Thử nó trên quy trình làm việc của riêng bạn

Bắt đầu với gói miễn phí, vốn luôn miễn phí mãi mãi, hoặc chạy trọn bản Trial 30 ngày suốt một ngày thật với các commit, lời nhắc và PR trước khi quyết định về Pro. Nếu việc đọc chính tả phần văn xuôi giữa các tác vụ lập trình trụ lại được, thì sự cản trở mà nó loại bỏ sẽ nhanh chóng tự bù lại.

Nếu bạn muốn các bản nháp nói ra đến thẳng vào chú thích, commit và lời nhắc của mình mà không một chữ nào chạm đến đám mây, hãy xem DijiFlow Dictate Pro phù hợp với quy trình làm việc của bạn ra sao.

DijiFlow DictateDijiFlow Dictate

Đội ngũ DijiFlow Dictate

Ghi chú về dịch giọng nói ngay trên thiết bị, riêng tư, và cách làm được nhiều việc hơn bằng giọng nói của bạn.

Bắt đầu đọc chính tả rảnh tay ngay hôm nay.

Chuyển giọng nói thành văn bản riêng tư, 100% ngay trên thiết bị, với 90+ ngôn ngữ — miễn phí mãi mãi, và lên Pro khi bạn cần nhiều hơn.