The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon4 de junho de 20265 min read

A tecnologia por trás do DijiFlow: Whisper, CoreML e Apple Silicon, explicados de forma simples

Como o DijiFlow Dictate transforma sua voz em texto inteiramente no seu dispositivo, usando Whisper, CoreML e Apple Silicon. Explicado em linguagem simples.

A maioria dos ditados parece mágica até você fazer a pergunta óbvia: para onde a minha voz de fato vai? Com o DijiFlow Dictate, a resposta honesta é lugar nenhum. Você fala, o texto aparece no seu cursor, e nenhuma palavra viaja até um servidor. Sem conta, sem envio, sem telemetria. Isso não é uma promessa de privacidade acoplada no fim — decorre de como o app é construído.

Três peças bem compreendidas fazem tudo funcionar: o Whisper, o modelo de fala aberto que faz a escuta; o CoreML, o framework que o roda com eficiência em um Mac; e o Apple Silicon, o chip que faz a coisa parecer instantânea. Nenhum conhecimento prévio é necessário — aqui está cada uma em termos simples.

~12 MB
download do app
300 MB–6 GB
modelo de fala, baixado uma vez
Neural Engine
onde o trabalho de fato roda

Whisper: transformando som em palavras

No coração do DijiFlow Dictate está o Whisper, uma família de modelos de reconhecimento de fala de código aberto da OpenAI. Um modelo de fala é, em termos simples, um identificador de padrões muito grande, treinado em quantidades enormes de áudio acompanhado da sua transcrição. A partir desses dados, ele aprende como os sons que as pessoas fazem se alinham com as palavras que elas querem dizer — entre sotaques, ruído de fundo e as pausas naturais da fala real.

Quando você dita, o Whisper prevê a sequência mais provável de palavras a partir do áudio do seu microfone, e ele é genuinamente bom nisso. Em fala nítida, atinge cerca de 98% de precisão, e a versão mais capaz, o Whisper large-v3, lida com até 90+ idiomas. Como ele lê o contexto em vez de combinar uma palavra por vez, dá conta do jeito bagunçado com que as pessoas realmente falam.

Por que o modelo é um download separado

Esta é a parte que surpreende as pessoas: o app e a inteligência são dois arquivos diferentes. O DijiFlow Dictate em si é minúsculo — cerca de 12 MB. Os modelos de fala Whisper são a parte pesada, variando de aproximadamente 300 MB a 6 GB, dependendo de qual você escolher. Modelos maiores costumam ser mais precisos em áudios difíceis, mas exigem mais do seu hardware, então você escolhe o equilíbrio de velocidade e precisão que combina com você.

Você baixa um modelo uma vez; depois disso, a transcrição não precisa de internet nenhuma. Esse passo único é exatamente o motivo pelo qual a sua voz pode ficar na sua máquina.

CoreML: rodando o modelo do jeito eficiente

Um modelo de fala só é útil se rodar com rapidez sem drenar a sua bateria. Esse é o trabalho do CoreML, o framework da Apple para rodar modelos de aprendizado de máquina nos seus dispositivos. Pense nele como um tradutor e controlador de tráfego: ele pega um modelo como o Whisper e descobre como rodá-lo usando as partes mais adequadas do seu hardware.

O DijiFlow Dictate usa o WhisperKit, um runtime de código aberto que compila o Whisper para rodar por meio do CoreML. Isso significa que o modelo é otimizado especificamente para o hardware da Apple em vez de rodar como um código genérico e mais lento, então o ditado acompanha a fala natural enquanto pesa pouco nos recursos do sistema. E tudo acontece localmente — o CoreML não é um serviço de nuvem. É parte do sistema operacional que permite aos apps rodar recursos inteligentes de forma privada e offline.

Apple Silicon: o chip que torna a coisa instantânea

A última peça é o hardware. Nos Macs modernos, isso significa o Apple Silicon — os chips da série M em máquinas rodando macOS 14 ou posterior. Esses chips incluem um Neural Engine dedicado, uma seção do silício feita especificamente para rodar modelos de aprendizado de máquina rápido e com pouquíssima energia, com a GPU disponível por meio do Metal quando uma força extra ajuda.

Você não configura nada disso. O CoreML distribui o trabalho pelo hardware certo automaticamente; você só fala, e o chip dá conta em tempo real. Essa é a vantagem silenciosa do design no dispositivo: o mesmo silício que faz o seu Mac parecer ágil é o que torna o ditado privado prático.

Todo o pipeline, do início ao fim

Coloque as três peças em ordem e a ida e volta é curta — e inteiramente local.

Você fala
O áudio do seu microfone é capturado no dispositivo, nunca transmitido para lugar nenhum.
O Whisper roda via CoreML no Neural Engine
O modelo transforma som em palavras ali mesmo, no Apple Silicon, em tempo real.
O texto aparece no seu cursor
Suas palavras surgem no app em que você já está. Nada é enviado, então não há nada para vazar.

Conclusão principal

O modelo mora na sua máquina, então a transcrição é apenas computação local — não há servidor no caminho para armazenar, interceptar ou reter sem alarde a sua voz.

Baixe uma vez, depois offline para sempre

A maioria das ferramentas de voz são serviços de nuvem usando um ícone de app: elas precisam de uma conexão e de uma conta toda vez, porque o modelo que entende você mora no hardware de outra pessoa. O DijiFlow Dictate inverte isso — você instala uma vez, e o trabalho passa para o seu chip.

Como ele se comporta	DijiFlow (no dispositivo)	Ditado na nuvem
Funciona após um download único	✓	✗
Transcreve sem internet	✓	✗
Não exige conta	✓	✗
O áudio permanece no seu dispositivo	✓	✗

E além do Mac

A mesma abordagem no dispositivo se estende ao Windows 10 e 11, onde o DijiFlow Dictate roda em GPUs AMD, Intel e NVIDIA. O hardware NVIDIA precisa de CUDA e de um driver atual, mas o princípio é idêntico: a sua fala é transcrita localmente, e nada é enviado.

Sem truque, só boa engenharia

Não há nada de exótico acontecendo aqui. O DijiFlow Dictate é construído sobre tecnologia aberta e bem compreendida — Whisper para o modelo de fala, WhisperKit e CoreML para o runtime, e Apple Silicon para o hardware. A decisão que importa é manter tudo isso no seu dispositivo, para que você tenha a praticidade do ditado moderno sem nunca entregar a sua voz a ninguém, nos planos grátis, Teste e Pro.

Se você prefere sentir a coisa a ler sobre ela, pode experimentar o ditado privado, no dispositivo, grátis por 30 dias no plano Pro.

A Equipe DijiFlow Dictate

Notas sobre ditado privado e no dispositivo, e sobre como produzir mais usando a voz.

Anterior Ditado para escritores e estudantes: rascunhos, anotações e redações mais rápidos Próximo Ditado para escritores e estudantes: rascunhos, anotações e redações mais rápidos

Comece a ditar sem usar as mãos hoje.

Voz para texto privada, 100% no dispositivo, em 90+ idiomas — gratuita para sempre, com o Pro quando você precisar de mais.

Obter o DijiFlow Pro Baixar grátis

Item adicionado ao carrinho!

A tecnologia por trás do DijiFlow: Whisper, CoreML e Apple Silicon, explicados de forma simples

Whisper: transformando som em palavras

Por que o modelo é um download separado

CoreML: rodando o modelo do jeito eficiente

Apple Silicon: o chip que torna a coisa instantânea

Todo o pipeline, do início ao fim

Baixe uma vez, depois offline para sempre

E além do Mac

Sem truque, só boa engenharia

A Equipe DijiFlow Dictate

Comece a ditar sem usar as mãos hoje.

Você também podegostar

Gratuito, Avaliação ou Pro: escolhendo o plano DijiFlow certo (e o que cada um inclui)

Primeiros passos com o DijiFlow Dictate: instalação, atalhos e seu primeiro ditado

Ditado para escritores e estudantes: rascunhos, anotações e redações mais rápidos