The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon1 min read

DijiFlowを支える技術: Whisper、CoreML、Apple Siliconをやさしく解説

DijiFlow Dictateが、Whisper、CoreML、Apple Siliconを使って、あなたの声を完全にデバイス上でテキストに変える仕組み。平易な言葉で解説します。

たいていの音声入力は、当たり前の問いを投げかけるまで魔法のように感じられます——私の声は、実際どこへ行くのか、と。DijiFlow Dictate での正直な答えは、どこにも、です。あなたが話すと、テキストがカーソル位置に現れ、ただの一語もサーバーへ移動しません。アカウントなし、アップロードなし、テレメトリーなし。これは最後に後付けしたプライバシーの約束ではありません——このアプリがどう作られているかから、自然に導かれるものです。

よく理解された三つの部品が、それを成り立たせています——Whisper、聞き取りを担うオープンな音声モデル。CoreML、それを Mac 上で効率よく動かすフレームワーク。そして Apple Silicon、それを即座に感じさせるチップ。前提知識は要りません——それぞれを平易な言葉で説明します。

  • ~12 MB
    アプリのダウンロード
  • 300 MB–6 GB
    音声モデル、ダウンロードは一度きり
  • Neural Engine
    処理が実際に走る場所

Whisper——音を言葉に変える

DijiFlow Dictate の中心にあるのが Whisper、OpenAI によるオープンソースの音声認識モデル群です。音声モデルとは、平たく言えば、膨大な量の音声とその文字起こしの対で訓練された、とても大きなパターン照合器です。そのデータから、人が出す音と、意図する言葉とがどう対応するかを学びます——さまざまなアクセント、背景の雑音、そして実際の発話に自然に挟まる間をまたいで。

あなたが音声入力すると、Whisper はマイクの音声から最もありそうな語の並びを予測し、それが実に上手です。クリアな発話では約 98% の精度に達し、最も高性能な版である Whisper large-v3 は最大 90+ の言語を扱います。一語ずつ照合するのではなく文脈を読むため、人が実際に話す乱雑なやり方にもうまく対応します。

なぜモデルは別ダウンロードなのか

ここが人を驚かせる部分です——アプリと知能は、二つの別々のファイルなのです。DijiFlow Dictate 本体は小さく、およそ 12 MB です。重いのは Whisper 音声モデルのほうで、選ぶものに応じておよそ 300 MB から 6 GB の幅があります。大きいモデルは難しい音声では概してより正確ですが、ハードウェアにより多くを要求するので、自分に合った速度と精度の釣り合いを選びます。

モデルは一度ダウンロードします。そのあとは、文字化にインターネットがまったく要りません。その一度きりの手順こそ、あなたの声がマシンにとどまれる理由なのです。

CoreML——モデルを効率よく動かす

音声モデルは、バッテリーを枯らさず素早く動いてはじめて役に立ちます。それが CoreML の仕事です——Apple のデバイス上で機械学習モデルを動かすための、Apple のフレームワークです。翻訳者であり交通整理係だと考えてください——Whisper のようなモデルを受け取り、ハードウェアの最も適した部分を使ってそれをどう動かすかを割り出します。

DijiFlow Dictate は WhisperKit を使います——Whisper をコンパイルして CoreML を通じて動かす、オープンソースのランタイムです。つまりモデルは、汎用の遅いコードとして動くのではなく、Apple のハードウェア向けに特化して最適化されているので、システムリソースに軽いままで、音声入力が自然な発話に遅れずついていきます。そしてそのすべてがローカルで起こります——CoreML はクラウドサービスではありません。アプリが知的な機能をプライベートに、オフラインで動かせるようにする、オペレーティングシステムの一部なのです。

Apple Silicon——それを即座にするチップ

最後の部品はハードウェアです。現代の Mac では、それは Apple Silicon を意味します——macOS 14 以降を動かすマシンに載る M シリーズチップです。これらのチップには専用の Neural Engine が含まれます——機械学習モデルを、ごくわずかな電力で速く動かすために作られたシリコンの一区画で、追加の馬力が役立つときには Metal を通じて GPU も使えます。

これらは何も設定しません。CoreML が適切なハードウェアへ作業を自動的に振り分けます。あなたはただ話すだけで、チップがリアルタイムで処理します。それがオンデバイス設計の静かな利点です——あなたの Mac を機敏に感じさせる、まさにそのシリコンが、プライベートな音声入力を実用的なものにしているのです。

パイプライン全体、始めから終わりまで

三つの部品を順に並べると、その往復は短く——そして完全にローカルです。

  1. あなたが話す

    マイクからの音声はデバイス上で捉えられ、どこにもストリーミングされません。

  2. Whisper が CoreML を通じて Neural Engine 上で動く

    モデルが、まさにその Apple Silicon の上で、リアルタイムに音を言葉へ変えます。

  3. テキストがカーソル位置に届く

    あなたの言葉が、すでにいるどのアプリにも現れます。何も外へ送られないので、漏れるものは何もありません。

要点

モデルがあなたのマシン上にあるため、文字化はただのローカルな計算です——ループの中に、あなたの声を保存したり、傍受したり、ひそかに保持したりするサーバーは存在しません。

一度ダウンロードすれば、あとは永遠にオフライン

ほとんどの音声ツールは、アプリのアイコンをまとったクラウドサービスです——毎回、接続とアカウントを必要とします。あなたを理解するモデルが、他人のハードウェアの上に住んでいるからです。DijiFlow Dictate はそれを逆さにします——一度インストールすれば、作業はあなたのチップへ移ります。

どう振る舞うかDijiFlow(オンデバイス)クラウド音声入力
一度きりのダウンロードのあと動く
インターネットなしで文字化する
アカウント不要
音声がデバイスにとどまる

そして Mac の先へ

同じオンデバイスのやり方は Windows 10 と 11 へも広がります。そこでは DijiFlow Dictate は AMD、Intel、NVIDIA の GPU 上で動きます。NVIDIA のハードウェアは CUDA と最新のドライバを必要としますが、原則は同じです——あなたの発話はローカルで文字化され、何も外へ送られません。

仕掛けはなく、ただの確かな技術

ここで起きていることに、風変わりなものは何もありません。DijiFlow Dictate は、オープンで、よく理解された技術の上に作られています——音声モデルには Whisper、ランタイムには WhisperKit と CoreML、ハードウェアには Apple Silicon。肝心なのは、そのすべてをあなたのデバイス上に保つという決定です——だから、Free・Trial・Pro のいずれでも、あなたの声を誰かに手渡すことなく、現代の音声入力の便利さが手に入ります。

読むより感じたいなら、Pro プラン でプライベートなオンデバイスの音声入力を 30 日間無料でお試しいただけます。

DijiFlow DictateDijiFlow Dictate

DijiFlow Dictate チーム

プライバシーを守るオンデバイスの音声入力と、声でもっとはかどる仕事術についてのノート。

ハンズフリーの音声入力を、 今日から始めましょう。

プライバシーを守る100%オンデバイスの音声入力を90+言語で。ずっと無料、必要になったらPro へ。