Free, Trial o Pro: cómo elegir el plan de DijiFlow adecuado (y qué incluye cada uno)
Compara los planes Free, Trial y Pro de DijiFlow Dictate. Descubre exactamente qué incluye cada nivel para que elijas...
Tienes %itemCount% en tu carrito.Total: %total%
Cómo DijiFlow Dictate convierte tu voz en texto enteramente en tu dispositivo, usando Whisper, CoreML y Apple Silicon. Explicado en lenguaje sencillo.
La mayoría del dictado parece magia hasta que haces la pregunta evidente: ¿a dónde va realmente mi voz? Con DijiFlow Dictate, la respuesta honesta es a ninguna parte. Hablas, el texto aparece en tu cursor y ni una palabra viaja a un servidor. Sin cuenta, sin subida, sin telemetría. Eso no es una promesa de privacidad añadida al final: se deduce de cómo está construida la aplicación.
Tres piezas bien conocidas lo hacen funcionar: Whisper, el modelo de voz abierto que se encarga de escuchar; CoreML, el marco que lo ejecuta de forma eficiente en un Mac; y Apple Silicon, el chip que hace que se sienta instantáneo. No hace falta saber nada de antemano: aquí tienes cada uno en términos sencillos.
En el corazón de DijiFlow Dictate está Whisper, una familia de modelos de reconocimiento de voz de código abierto de OpenAI. Un modelo de voz es, en términos sencillos, un buscador de patrones enorme entrenado con cantidades inmensas de audio emparejado con su transcripción. A partir de esos datos aprende cómo los sonidos que produce la gente cuadran con las palabras que quieren decir, a través de acentos, ruido de fondo y las pausas naturales del habla real.
Cuando dictas, Whisper predice la secuencia de palabras más probable a partir del audio de tu micrófono, y es genuinamente bueno haciéndolo. Con habla clara alcanza alrededor de un 98% de precisión, y la versión más capaz, Whisper large-v3, maneja hasta más de 90 idiomas. Como lee el contexto en lugar de cotejar palabra por palabra, se las apaña con la forma desordenada en que la gente habla de verdad.
Esta es la parte que sorprende a la gente: la aplicación y la inteligencia son dos archivos distintos. DijiFlow Dictate en sí es diminuto: unos 12 MB. Los modelos de voz Whisper son la parte pesada, y van desde aproximadamente 300 MB hasta 6 GB según cuál elijas. Los modelos más grandes suelen ser más precisos con audio difícil, pero le piden más a tu hardware, así que eliges el equilibrio de velocidad y precisión que te convenga.
Descargas un modelo una vez; a partir de ahí, la transcripción no necesita internet en absoluto. Ese paso único es justo la razón por la que tu voz puede quedarse en tu equipo.
Un modelo de voz solo es útil si se ejecuta rápido sin agotar la batería. Ese es el trabajo de CoreML, el marco de Apple para ejecutar modelos de aprendizaje automático en sus dispositivos. Piénsalo como un traductor y un controlador de tráfico: toma un modelo como Whisper y resuelve cómo ejecutarlo usando las partes más adecuadas de tu hardware.
DijiFlow Dictate usa WhisperKit, un entorno de ejecución de código abierto que compila Whisper para que funcione a través de CoreML. Eso significa que el modelo está optimizado específicamente para el hardware de Apple en lugar de ejecutarse como código genérico y más lento, así que el dictado le sigue el ritmo al habla natural mientras se mantiene ligero con los recursos del sistema. Y todo ocurre en local: CoreML no es un servicio en la nube. Es parte del sistema operativo que permite a las aplicaciones ejecutar funciones inteligentes de forma privada y sin conexión.
La última pieza es el hardware. En los Mac modernos eso significa Apple Silicon: los chips de la serie M en máquinas con macOS 14 o posterior. Estos chips incluyen un Neural Engine dedicado, una sección de silicio construida específicamente para ejecutar modelos de aprendizaje automático rápido y con muy poca energía, con la GPU disponible a través de Metal cuando ayuda algo de potencia extra.
No configuras nada de esto. CoreML reparte el trabajo entre el hardware adecuado de forma automática; tú solo hablas, y el chip lo maneja en tiempo real. Esa es la ventaja silenciosa del diseño en el dispositivo: el mismo silicio que hace que tu Mac se sienta ágil es lo que hace práctico el dictado privado.
Pon las tres piezas en orden y el viaje de ida y vuelta es corto, y por completo local.
El audio de tu micrófono se captura en el dispositivo, nunca se transmite a ninguna parte.
El modelo convierte el sonido en palabras allí mismo, en Apple Silicon, en tiempo real.
Tus palabras aparecen en la aplicación en la que ya estás. Nada se envía fuera, así que no hay nada que filtrar.
Idea clave
El modelo vive en tu equipo, así que la transcripción es solo cálculo local: no hay servidor en el circuito que almacene, intercepte o conserve en silencio tu voz.
La mayoría de las herramientas de voz son servicios en la nube con un icono de aplicación: necesitan conexión y una cuenta cada vez, porque el modelo que te entiende vive en el hardware de otra persona. DijiFlow Dictate le da la vuelta a eso: instalas una vez, y el trabajo se traslada a tu chip.
| Cómo se comporta | DijiFlow (en el dispositivo) | Dictado en la nube |
|---|---|---|
| Funciona tras una descarga única | ✓ | ✗ |
| Transcribe sin internet | ✓ | ✗ |
| No requiere cuenta | ✓ | ✗ |
| El audio se queda en tu dispositivo | ✓ | ✗ |
El mismo enfoque en el dispositivo se extiende a Windows 10 y 11, donde DijiFlow Dictate funciona en GPU de AMD, Intel y NVIDIA. El hardware de NVIDIA necesita CUDA y un controlador actualizado, pero el principio es idéntico: tu voz se transcribe en local, y nada se envía fuera.
Aquí no pasa nada exótico. DijiFlow Dictate está construido sobre tecnología abierta y bien conocida: Whisper para el modelo de voz, WhisperKit y CoreML para el entorno de ejecución, y Apple Silicon para el hardware. La decisión que importa es mantenerlo todo en tu dispositivo, para que tengas la comodidad del dictado moderno sin entregar nunca tu voz a nadie, en Free, Trial y Pro.
Si prefieres sentirlo a leer sobre ello, puedes probar el dictado privado en el dispositivo gratis durante 30 días en el plan Pro.
Voz a texto privada, 100% en tu dispositivo y en 90+ idiomas — gratis para siempre, y Pro cuando necesites más.