The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon4 de junio de 20265 min read

La tecnología detrás de DijiFlow: Whisper, CoreML y Apple Silicon, explicado de forma sencilla

Cómo DijiFlow Dictate convierte tu voz en texto enteramente en tu dispositivo, usando Whisper, CoreML y Apple Silicon. Explicado en lenguaje sencillo.

La mayoría del dictado parece magia hasta que haces la pregunta evidente: ¿a dónde va realmente mi voz? Con DijiFlow Dictate, la respuesta honesta es a ninguna parte. Hablas, el texto aparece en tu cursor y ni una palabra viaja a un servidor. Sin cuenta, sin subida, sin telemetría. Eso no es una promesa de privacidad añadida al final: se deduce de cómo está construida la aplicación.

Tres piezas bien conocidas lo hacen funcionar: Whisper, el modelo de voz abierto que se encarga de escuchar; CoreML, el marco que lo ejecuta de forma eficiente en un Mac; y Apple Silicon, el chip que hace que se sienta instantáneo. No hace falta saber nada de antemano: aquí tienes cada uno en términos sencillos.

~12 MB
descarga de la aplicación
300 MB–6 GB
modelo de voz, descargado una vez
Neural Engine
donde se ejecuta de verdad el trabajo

Whisper: convertir el sonido en palabras

En el corazón de DijiFlow Dictate está Whisper, una familia de modelos de reconocimiento de voz de código abierto de OpenAI. Un modelo de voz es, en términos sencillos, un buscador de patrones enorme entrenado con cantidades inmensas de audio emparejado con su transcripción. A partir de esos datos aprende cómo los sonidos que produce la gente cuadran con las palabras que quieren decir, a través de acentos, ruido de fondo y las pausas naturales del habla real.

Cuando dictas, Whisper predice la secuencia de palabras más probable a partir del audio de tu micrófono, y es genuinamente bueno haciéndolo. Con habla clara alcanza alrededor de un 98% de precisión, y la versión más capaz, Whisper large-v3, maneja hasta más de 90 idiomas. Como lee el contexto en lugar de cotejar palabra por palabra, se las apaña con la forma desordenada en que la gente habla de verdad.

Por qué el modelo es una descarga aparte

Esta es la parte que sorprende a la gente: la aplicación y la inteligencia son dos archivos distintos. DijiFlow Dictate en sí es diminuto: unos 12 MB. Los modelos de voz Whisper son la parte pesada, y van desde aproximadamente 300 MB hasta 6 GB según cuál elijas. Los modelos más grandes suelen ser más precisos con audio difícil, pero le piden más a tu hardware, así que eliges el equilibrio de velocidad y precisión que te convenga.

Descargas un modelo una vez; a partir de ahí, la transcripción no necesita internet en absoluto. Ese paso único es justo la razón por la que tu voz puede quedarse en tu equipo.

CoreML: ejecutar el modelo de la forma eficiente

Un modelo de voz solo es útil si se ejecuta rápido sin agotar la batería. Ese es el trabajo de CoreML, el marco de Apple para ejecutar modelos de aprendizaje automático en sus dispositivos. Piénsalo como un traductor y un controlador de tráfico: toma un modelo como Whisper y resuelve cómo ejecutarlo usando las partes más adecuadas de tu hardware.

DijiFlow Dictate usa WhisperKit, un entorno de ejecución de código abierto que compila Whisper para que funcione a través de CoreML. Eso significa que el modelo está optimizado específicamente para el hardware de Apple en lugar de ejecutarse como código genérico y más lento, así que el dictado le sigue el ritmo al habla natural mientras se mantiene ligero con los recursos del sistema. Y todo ocurre en local: CoreML no es un servicio en la nube. Es parte del sistema operativo que permite a las aplicaciones ejecutar funciones inteligentes de forma privada y sin conexión.

Apple Silicon: el chip que lo hace instantáneo

La última pieza es el hardware. En los Mac modernos eso significa Apple Silicon: los chips de la serie M en máquinas con macOS 14 o posterior. Estos chips incluyen un Neural Engine dedicado, una sección de silicio construida específicamente para ejecutar modelos de aprendizaje automático rápido y con muy poca energía, con la GPU disponible a través de Metal cuando ayuda algo de potencia extra.

No configuras nada de esto. CoreML reparte el trabajo entre el hardware adecuado de forma automática; tú solo hablas, y el chip lo maneja en tiempo real. Esa es la ventaja silenciosa del diseño en el dispositivo: el mismo silicio que hace que tu Mac se sienta ágil es lo que hace práctico el dictado privado.

Todo el proceso, de principio a fin

Pon las tres piezas en orden y el viaje de ida y vuelta es corto, y por completo local.

Hablas
El audio de tu micrófono se captura en el dispositivo, nunca se transmite a ninguna parte.
Whisper se ejecuta vía CoreML en el Neural Engine
El modelo convierte el sonido en palabras allí mismo, en Apple Silicon, en tiempo real.
El texto cae en tu cursor
Tus palabras aparecen en la aplicación en la que ya estás. Nada se envía fuera, así que no hay nada que filtrar.

Idea clave

El modelo vive en tu equipo, así que la transcripción es solo cálculo local: no hay servidor en el circuito que almacene, intercepte o conserve en silencio tu voz.

Descarga una vez, luego sin conexión para siempre

La mayoría de las herramientas de voz son servicios en la nube con un icono de aplicación: necesitan conexión y una cuenta cada vez, porque el modelo que te entiende vive en el hardware de otra persona. DijiFlow Dictate le da la vuelta a eso: instalas una vez, y el trabajo se traslada a tu chip.

Cómo se comporta	DijiFlow (en el dispositivo)	Dictado en la nube
Funciona tras una descarga única	✓	✗
Transcribe sin internet	✓	✗
No requiere cuenta	✓	✗
El audio se queda en tu dispositivo	✓	✗

Y más allá del Mac

El mismo enfoque en el dispositivo se extiende a Windows 10 y 11, donde DijiFlow Dictate funciona en GPU de AMD, Intel y NVIDIA. El hardware de NVIDIA necesita CUDA y un controlador actualizado, pero el principio es idéntico: tu voz se transcribe en local, y nada se envía fuera.

Sin truco, solo buena ingeniería

Aquí no pasa nada exótico. DijiFlow Dictate está construido sobre tecnología abierta y bien conocida: Whisper para el modelo de voz, WhisperKit y CoreML para el entorno de ejecución, y Apple Silicon para el hardware. La decisión que importa es mantenerlo todo en tu dispositivo, para que tengas la comodidad del dictado moderno sin entregar nunca tu voz a nadie, en Free, Prueba y Pro.

Si prefieres sentirlo a leer sobre ello, puedes probar el dictado privado en el dispositivo gratis durante 30 días en el plan Pro.

El equipo de DijiFlow Dictate

Apuntes sobre dictado privado en tu dispositivo y cómo hacer más con tu voz.

Anterior Dictado para escritores y estudiantes: borradores, apuntes y ensayos más rápidos Siguiente Dictado para escritores y estudiantes: borradores, apuntes y ensayos más rápidos

Empieza a dictar con las manos libres hoy.

Voz a texto privada, 100% en tu dispositivo y en 90+ idiomas — gratis para siempre, y Pro cuando necesites más.

Consigue DijiFlow Pro Descárgalo gratis

¡Artículo añadido al carrito!

La tecnología detrás de DijiFlow: Whisper, CoreML y Apple Silicon, explicado de forma sencilla

Whisper: convertir el sonido en palabras

Por qué el modelo es una descarga aparte

CoreML: ejecutar el modelo de la forma eficiente

Apple Silicon: el chip que lo hace instantáneo

Todo el proceso, de principio a fin

Descarga una vez, luego sin conexión para siempre

Y más allá del Mac

Sin truco, solo buena ingeniería

El equipo de DijiFlow Dictate

Empieza a dictar con las manos libres hoy.

También te puedegustar

Gratis, Prueba o Pro: cómo elegir el plan de DijiFlow adecuado (y qué incluye cada uno)

Primeros pasos con DijiFlow Dictate: configuración, atajos de teclado y tu primer dictado

Dictado para escritores y estudiantes: borradores, apuntes y ensayos más rápidos