Free, Trial ou Pro: escolhendo o plano DijiFlow certo (e o que cada um inclui)
Compare os planos Free, Trial e Pro do DijiFlow Dictate. Veja exatamente o que cada nível inclui para escolher o plan...
Você tem %itemCount% no seu carrinho.Total: %total%
Como o DijiFlow Dictate transforma sua voz em texto inteiramente no seu dispositivo, usando Whisper, CoreML e Apple Silicon. Explicado em linguagem simples.
A maioria dos ditados parece mágica até você fazer a pergunta óbvia: para onde a minha voz de fato vai? Com o DijiFlow Dictate, a resposta honesta é lugar nenhum. Você fala, o texto aparece no seu cursor, e nenhuma palavra viaja até um servidor. Sem conta, sem envio, sem telemetria. Isso não é uma promessa de privacidade acoplada no fim — decorre de como o app é construído.
Três peças bem compreendidas fazem tudo funcionar: o Whisper, o modelo de fala aberto que faz a escuta; o CoreML, o framework que o roda com eficiência em um Mac; e o Apple Silicon, o chip que faz a coisa parecer instantânea. Nenhum conhecimento prévio é necessário — aqui está cada uma em termos simples.
No coração do DijiFlow Dictate está o Whisper, uma família de modelos de reconhecimento de fala de código aberto da OpenAI. Um modelo de fala é, em termos simples, um identificador de padrões muito grande, treinado em quantidades enormes de áudio acompanhado da sua transcrição. A partir desses dados, ele aprende como os sons que as pessoas fazem se alinham com as palavras que elas querem dizer — entre sotaques, ruído de fundo e as pausas naturais da fala real.
Quando você dita, o Whisper prevê a sequência mais provável de palavras a partir do áudio do seu microfone, e ele é genuinamente bom nisso. Em fala nítida, atinge cerca de 98% de precisão, e a versão mais capaz, o Whisper large-v3, lida com até 90+ idiomas. Como ele lê o contexto em vez de combinar uma palavra por vez, dá conta do jeito bagunçado com que as pessoas realmente falam.
Esta é a parte que surpreende as pessoas: o app e a inteligência são dois arquivos diferentes. O DijiFlow Dictate em si é minúsculo — cerca de 12 MB. Os modelos de fala Whisper são a parte pesada, variando de aproximadamente 300 MB a 6 GB, dependendo de qual você escolher. Modelos maiores costumam ser mais precisos em áudios difíceis, mas exigem mais do seu hardware, então você escolhe o equilíbrio de velocidade e precisão que combina com você.
Você baixa um modelo uma vez; depois disso, a transcrição não precisa de internet nenhuma. Esse passo único é exatamente o motivo pelo qual a sua voz pode ficar na sua máquina.
Um modelo de fala só é útil se rodar com rapidez sem drenar a sua bateria. Esse é o trabalho do CoreML, o framework da Apple para rodar modelos de aprendizado de máquina nos seus dispositivos. Pense nele como um tradutor e controlador de tráfego: ele pega um modelo como o Whisper e descobre como rodá-lo usando as partes mais adequadas do seu hardware.
O DijiFlow Dictate usa o WhisperKit, um runtime de código aberto que compila o Whisper para rodar por meio do CoreML. Isso significa que o modelo é otimizado especificamente para o hardware da Apple em vez de rodar como um código genérico e mais lento, então o ditado acompanha a fala natural enquanto pesa pouco nos recursos do sistema. E tudo acontece localmente — o CoreML não é um serviço de nuvem. É parte do sistema operacional que permite aos apps rodar recursos inteligentes de forma privada e offline.
A última peça é o hardware. Nos Macs modernos, isso significa o Apple Silicon — os chips da série M em máquinas rodando macOS 14 ou posterior. Esses chips incluem um Neural Engine dedicado, uma seção do silício feita especificamente para rodar modelos de aprendizado de máquina rápido e com pouquíssima energia, com a GPU disponível por meio do Metal quando uma força extra ajuda.
Você não configura nada disso. O CoreML distribui o trabalho pelo hardware certo automaticamente; você só fala, e o chip dá conta em tempo real. Essa é a vantagem silenciosa do design no dispositivo: o mesmo silício que faz o seu Mac parecer ágil é o que torna o ditado privado prático.
Coloque as três peças em ordem e a ida e volta é curta — e inteiramente local.
O áudio do seu microfone é capturado no dispositivo, nunca transmitido para lugar nenhum.
O modelo transforma som em palavras ali mesmo, no Apple Silicon, em tempo real.
Suas palavras surgem no app em que você já está. Nada é enviado, então não há nada para vazar.
Conclusão principal
O modelo mora na sua máquina, então a transcrição é apenas computação local — não há servidor no caminho para armazenar, interceptar ou reter sem alarde a sua voz.
A maioria das ferramentas de voz são serviços de nuvem usando um ícone de app: elas precisam de uma conexão e de uma conta toda vez, porque o modelo que entende você mora no hardware de outra pessoa. O DijiFlow Dictate inverte isso — você instala uma vez, e o trabalho passa para o seu chip.
| Como ele se comporta | DijiFlow (no dispositivo) | Ditado na nuvem |
|---|---|---|
| Funciona após um download único | ✓ | ✗ |
| Transcreve sem internet | ✓ | ✗ |
| Não exige conta | ✓ | ✗ |
| O áudio permanece no seu dispositivo | ✓ | ✗ |
A mesma abordagem no dispositivo se estende ao Windows 10 e 11, onde o DijiFlow Dictate roda em GPUs AMD, Intel e NVIDIA. O hardware NVIDIA precisa de CUDA e de um driver atual, mas o princípio é idêntico: a sua fala é transcrita localmente, e nada é enviado.
Não há nada de exótico acontecendo aqui. O DijiFlow Dictate é construído sobre tecnologia aberta e bem compreendida — Whisper para o modelo de fala, WhisperKit e CoreML para o runtime, e Apple Silicon para o hardware. A decisão que importa é manter tudo isso no seu dispositivo, para que você tenha a praticidade do ditado moderno sem nunca entregar a sua voz a ninguém, nos planos grátis, Trial e Pro.
Se você prefere sentir a coisa a ler sobre ela, pode experimentar o ditado privado, no dispositivo, grátis por 30 dias no plano Pro.
Voz para texto privada, 100% no dispositivo, em 90+ idiomas — gratuita para sempre, com o Pro quando você precisar de mais.