The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon6 min read

Công nghệ đằng sau DijiFlow: Whisper, CoreML và Apple Silicon, giải thích đơn giản

Cách DijiFlow Dictate biến giọng nói của bạn thành văn bản hoàn toàn trên thiết bị của bạn, sử dụng Whisper, CoreML và Apple Silicon. Giải thích bằng ngôn ngữ dễ hiểu.

Phần lớn việc đọc chính tả ngỡ như phép màu cho đến khi bạn hỏi câu hiển nhiên: giọng nói của mình thực sự đi đâu? Với DijiFlow Dictate, câu trả lời trung thực là chẳng đâu cả. Bạn nói, văn bản hiện ra tại con trỏ, và không một chữ nào di chuyển đến một máy chủ. Không tài khoản, không tải lên, không thu thập dữ liệu. Đó không phải một lời hứa về quyền riêng tư lắp thêm vào lúc cuối — nó nảy sinh từ cách ứng dụng được xây dựng.

Ba mảnh ghép được hiểu rõ tạo nên điều đó: Whisper, mô hình giọng nói mở đảm nhận việc lắng nghe; CoreML, khung làm việc chạy nó một cách hiệu quả trên Mac; và Apple Silicon, con chip khiến nó như tức thì. Không cần kiến thức gì trước — đây là từng mảnh được trình bày một cách dễ hiểu.

  • ~12 MB
    dung lượng tải ứng dụng
  • 300 MB–6 GB
    mô hình giọng nói, tải về một lần
  • Neural Engine
    nơi phần việc thực sự chạy

Whisper: biến âm thanh thành chữ

Ở trung tâm của DijiFlow Dictate là Whisper, một họ các mô hình nhận dạng giọng nói mã nguồn mở từ OpenAI. Nói một cách dễ hiểu, một mô hình giọng nói là một bộ so khớp mẫu rất lớn được huấn luyện trên một lượng âm thanh khổng lồ đi kèm bản phiên âm của nó. Từ dữ liệu đó, nó học cách những âm thanh con người tạo ra khớp với những từ họ muốn nói — qua các giọng vùng miền, tiếng ồn nền và những khoảng ngừng tự nhiên của lời nói thực.

Khi bạn đọc chính tả, Whisper dự đoán chuỗi từ khả dĩ nhất từ âm thanh micro của bạn, và nó làm việc đó thực sự tốt. Với giọng nói rõ ràng, nó đạt khoảng 98% độ chính xác, và phiên bản mạnh nhất, Whisper large-v3, xử lý tới 90+ ngôn ngữ. Vì nó đọc bối cảnh thay vì so khớp từng từ một, nó ứng phó được với cách con người thực sự nói chuyện đầy lộn xộn.

Vì sao mô hình là một bản tải riêng

Đây là phần khiến nhiều người bất ngờ: ứng dụng và phần trí tuệ là hai tệp khác nhau. Bản thân DijiFlow Dictate nhỏ xíu — khoảng 12 MB. Các mô hình giọng nói Whisper là phần nặng, dung lượng từ khoảng 300 MB đến 6 GB tùy bạn chọn. Các mô hình lớn hơn nhìn chung chính xác hơn với âm thanh khó nhưng đòi hỏi nhiều hơn ở phần cứng của bạn, nên bạn chọn sự cân bằng giữa tốc độ và độ chính xác phù hợp với mình.

Bạn tải một mô hình một lần; sau đó, việc phiên âm chẳng cần internet gì cả. Bước một lần đó chính là lý do giọng nói của bạn có thể ở lại trên máy của bạn.

CoreML: chạy mô hình một cách hiệu quả

Một mô hình giọng nói chỉ hữu ích nếu nó chạy nhanh mà không hút cạn pin của bạn. Đó là việc của CoreML, khung làm việc của Apple để chạy các mô hình máy học trên thiết bị của hãng. Hãy hình dung nó như một người phiên dịch và điều phối giao thông: nó nhận một mô hình như Whisper và tính toán cách chạy nó bằng những phần phù hợp nhất trên phần cứng của bạn.

DijiFlow Dictate dùng WhisperKit, một môi trường chạy mã nguồn mở biên dịch Whisper để chạy thông qua CoreML. Điều đó có nghĩa là mô hình được tối ưu riêng cho phần cứng Apple thay vì chạy như mã chung chung, chậm hơn, nên đọc chính tả theo kịp lời nói tự nhiên trong khi vẫn nhẹ với tài nguyên hệ thống. Và tất cả diễn ra cục bộ — CoreML không phải một dịch vụ đám mây. Nó là một phần của hệ điều hành cho phép các ứng dụng chạy những tính năng thông minh một cách riêng tư và ngoại tuyến.

Apple Silicon: con chip khiến nó tức thì

Mảnh ghép cuối cùng là phần cứng. Trên những chiếc Mac hiện đại, đó là Apple Silicon — các chip dòng M trong những máy chạy macOS 14 trở lên. Các chip này gồm một Neural Engine chuyên dụng, một phần silicon được tạo ra riêng để chạy các mô hình máy học nhanh và với rất ít điện năng, cùng GPU sẵn sàng thông qua Metal khi cần thêm sức mạnh.

Bạn không cấu hình gì trong số này. CoreML phân bổ phần việc trên đúng phần cứng một cách tự động; bạn chỉ việc nói, và con chip xử lý nó theo thời gian thực. Đó là lợi thế lặng lẽ của thiết kế trên thiết bị: chính phần silicon khiến chiếc Mac của bạn nhạy bén là thứ khiến đọc chính tả riêng tư trở nên khả thi.

Toàn bộ quy trình, từ đầu đến cuối

Sắp ba mảnh ghép theo thứ tự thì vòng lặp ngắn — và hoàn toàn cục bộ.

  1. Bạn nói

    Âm thanh từ micro của bạn được thu trên thiết bị, không bao giờ truyền đi đâu.

  2. Whisper chạy qua CoreML trên Neural Engine

    Mô hình biến âm thanh thành chữ ngay tại đó trên Apple Silicon, theo thời gian thực.

  3. Văn bản hiện ra tại con trỏ của bạn

    Lời của bạn xuất hiện trong bất kỳ ứng dụng nào bạn đang dùng. Không có gì được gửi đi, nên chẳng có gì để rò rỉ.

Điểm cốt lõi

Mô hình nằm trên máy của bạn, nên phiên âm chỉ là tính toán cục bộ — không có máy chủ nào trong vòng lặp để lưu trữ, chặn bắt hay âm thầm giữ lại giọng nói của bạn.

Tải một lần, rồi ngoại tuyến mãi mãi

Phần lớn công cụ giọng nói là các dịch vụ đám mây khoác lên một biểu tượng ứng dụng: chúng cần một kết nối và một tài khoản mỗi lần, bởi mô hình hiểu bạn nằm trên phần cứng của người khác. DijiFlow Dictate đảo ngược điều đó — bạn cài đặt một lần, và phần việc chuyển sang con chip của bạn.

Nó hành xử ra saoDijiFlow (trên thiết bị)Đọc chính tả đám mây
Hoạt động sau một lần tải duy nhất
Phiên âm khi không có internet
Không cần tài khoản
Âm thanh ở lại trên thiết bị của bạn

Và vượt ra ngoài chiếc Mac

Cùng cách tiếp cận trên thiết bị mở rộng sang Windows 10 và 11, nơi DijiFlow Dictate chạy trên GPU của AMD, Intel và NVIDIA. Phần cứng NVIDIA cần CUDA và một trình điều khiển hiện hành, nhưng nguyên tắc thì giống hệt: giọng nói của bạn được phiên âm cục bộ, và không gì được gửi đi.

Không mánh khóe, chỉ là kỹ thuật tốt

Chẳng có gì kỳ lạ diễn ra ở đây. DijiFlow Dictate được xây dựng trên công nghệ mở, được hiểu rõ — Whisper cho mô hình giọng nói, WhisperKit và CoreML cho môi trường chạy, và Apple Silicon cho phần cứng. Quyết định quan trọng là giữ tất cả trên thiết bị của bạn, để bạn có được sự tiện lợi của đọc chính tả hiện đại mà không bao giờ phải giao giọng nói của mình cho bất kỳ ai, xuyên suốt cả Free, Trial và Pro.

Nếu bạn muốn cảm nhận hơn là đọc về nó, bạn có thể thử đọc chính tả riêng tư, trên thiết bị, miễn phí trong 30 ngày với gói Pro.

DijiFlow DictateDijiFlow Dictate

Đội ngũ DijiFlow Dictate

Ghi chú về dịch giọng nói ngay trên thiết bị, riêng tư, và cách làm được nhiều việc hơn bằng giọng nói của bạn.

Bắt đầu đọc chính tả rảnh tay ngay hôm nay.

Chuyển giọng nói thành văn bản riêng tư, 100% ngay trên thiết bị, với 90+ ngôn ngữ — miễn phí mãi mãi, và lên Pro khi bạn cần nhiều hơn.