The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply
Apple Silicon3 min read

DijiFlow를 떠받치는 기술: Whisper, CoreML, Apple Silicon을 쉽게 풀어 보기

DijiFlow Dictate가 Whisper, CoreML, Apple Silicon을 사용해 당신의 목소리를 전적으로 기기에서 텍스트로 바꾸는 방식. 쉬운 말로 설명합니다.

대부분의 받아쓰기는 뻔한 질문을 던지기 전까지는 마법처럼 느껴집니다. 내 목소리는 실제로 어디로 가는가? DijiFlow Dictate라면 정직한 답은 '어디로도 가지 않는다'입니다. 당신이 말하면 텍스트가 커서 위치에 나타나고, 단 한 단어도 서버로 가지 않습니다. 계정도, 업로드도, 텔레메트리도 없습니다. 이것은 마지막에 덧붙인 프라이버시 약속이 아닙니다 — 이 앱이 어떻게 만들어졌는지에서 자연히 흘러나오는 결과입니다.

잘 알려진 세 조각이 이를 작동하게 합니다. 듣기를 담당하는 오픈 음성 모델 Whisper, 그것을 Mac에서 효율적으로 구동하는 프레임워크 CoreML, 그리고 그것을 즉각적으로 느끼게 하는 칩 Apple Silicon입니다. 사전 지식은 필요 없습니다 — 각각을 쉬운 말로 풀어 보겠습니다.

  • ~12 MB
    앱 다운로드
  • 300 MB–6 GB
    음성 모델, 한 번만 내려받음
  • Neural Engine
    실제로 작업이 돌아가는 곳

Whisper: 소리를 단어로 바꾸다

DijiFlow Dictate의 심장에는 OpenAI의 오픈 소스 음성 인식 모델 계열인 Whisper가 있습니다. 음성 모델이란 쉽게 말해, 방대한 양의 오디오와 그 텍스트가 짝지어진 데이터로 학습한 아주 큰 패턴 대조기입니다. 그 데이터로부터 모델은 사람이 내는 소리가 그들이 뜻하는 단어와 어떻게 맞아떨어지는지를 — 다양한 억양과 배경 소음, 실제 발화의 자연스러운 멈춤을 가로질러 — 익힙니다.

당신이 받아쓰면 Whisper는 마이크 오디오에서 가장 그럴듯한 단어 순서를 예측하며, 정말로 그 일을 잘합니다. 또렷한 음성에서는 약 98%의 정확도에 이르고, 가장 유능한 판본인 Whisper large-v3는 최대 90개 이상의 언어를 다룹니다. 한 번에 한 단어씩 대조하는 대신 맥락을 읽기 때문에, 사람이 실제로 말하는 어수선한 방식도 잘 감당합니다.

모델이 별도 다운로드인 이유

이 부분이 사람들을 놀라게 합니다. 앱과 지능은 서로 다른 두 개의 파일입니다. DijiFlow Dictate 자체는 아주 작습니다 — 약 12 MB입니다. 무거운 쪽은 Whisper 음성 모델로, 선택하는 것에 따라 대략 300 MB에서 6 GB까지입니다. 더 큰 모델은 어려운 오디오에서 대체로 더 정확하지만 하드웨어를 더 많이 요구하므로, 당신에게 맞는 속도와 정확도의 균형을 고르면 됩니다.

모델은 한 번만 내려받습니다. 그 이후로 받아쓰기는 인터넷이 전혀 필요 없습니다. 바로 그 한 번의 단계 덕분에 당신의 목소리가 기기에 머무를 수 있는 것입니다.

CoreML: 모델을 효율적으로 돌리는 방법

음성 모델은 배터리를 축내지 않고 빠르게 돌아갈 때만 쓸모가 있습니다. 그것이 CoreML의 일입니다. Apple이 자사 기기에서 머신러닝 모델을 구동하기 위한 프레임워크죠. 그것을 번역가이자 교통 정리원이라고 생각하세요. Whisper 같은 모델을 받아, 당신의 하드웨어에서 가장 알맞은 부분을 써서 어떻게 돌릴지 알아냅니다.

DijiFlow Dictate는 Whisper를 CoreML로 돌아가도록 컴파일하는 오픈 소스 런타임인 WhisperKit을 사용합니다. 즉, 모델이 느린 범용 코드로 돌아가는 대신 Apple 하드웨어에 맞춰 최적화되므로, 받아쓰기가 시스템 자원을 가볍게 쓰면서도 자연스러운 발화 속도를 따라잡습니다. 그리고 그 모든 것이 로컬에서 일어납니다 — CoreML은 클라우드 서비스가 아닙니다. 그것은 앱이 지능적인 기능을 사적으로, 오프라인으로 돌릴 수 있게 해 주는 운영 체제의 일부입니다.

Apple Silicon: 즉각적으로 만드는 칩

마지막 조각은 하드웨어입니다. 최신 Mac에서 그것은 Apple Silicon을 뜻합니다 — macOS 14 이상을 구동하는 기기의 M 시리즈 칩 말입니다. 이 칩에는 머신러닝 모델을 아주 적은 전력으로 빠르게 돌리도록 특별히 만들어진 실리콘 영역인 전용 Neural Engine이 들어 있으며, 추가적인 힘이 필요할 때는 Metal을 통해 GPU도 쓸 수 있습니다.

당신이 설정할 것은 아무것도 없습니다. CoreML이 알맞은 하드웨어에 작업을 자동으로 분배하니, 당신은 그저 말하고 칩이 실시간으로 처리합니다. 그것이 온디바이스 설계의 조용한 이점입니다. 당신의 Mac을 기민하게 느끼게 하는 바로 그 실리콘이, 사적인 받아쓰기를 실현 가능하게 만드는 것입니다.

전체 파이프라인, 처음부터 끝까지

세 조각을 순서대로 놓으면 왕복은 짧습니다 — 그리고 전적으로 로컬입니다.

  1. 당신이 말합니다

    마이크에서 들어온 오디오는 기기에서 포착되며, 어디로도 전송되지 않습니다.

  2. Whisper가 Neural Engine 위에서 CoreML을 통해 돌아갑니다

    모델이 바로 그 자리, Apple Silicon 위에서 소리를 단어로 실시간 변환합니다.

  3. 텍스트가 커서에 들어옵니다

    당신의 말이 이미 쓰고 있는 앱에 나타납니다. 밖으로 보내지는 것이 없으니 유출될 것도 없습니다.

핵심 요점

모델이 당신의 기기 안에 살므로 받아쓰기는 그저 로컬 연산일 뿐입니다 — 당신의 목소리를 저장하거나 가로채거나 조용히 보관할 서버가 흐름 안에 없습니다.

한 번 내려받고, 그다음 영원히 오프라인

대부분의 음성 도구는 앱 아이콘을 두른 클라우드 서비스입니다. 매번 연결과 계정이 필요한데, 당신을 이해하는 모델이 남의 하드웨어에 살기 때문입니다. DijiFlow Dictate는 그것을 뒤집습니다 — 한 번 설치하면 작업이 당신의 칩으로 옮겨 옵니다.

어떻게 작동하는가DijiFlow (온디바이스)클라우드 받아쓰기
한 번의 다운로드 뒤 작동한다
인터넷 없이 받아쓴다
계정이 필요 없다
오디오가 기기에 남는다

그리고 Mac 너머로

같은 온디바이스 방식은 Windows 10과 11로도 이어지며, 거기서 DijiFlow Dictate는 AMD, Intel, NVIDIA GPU에서 돌아갑니다. NVIDIA 하드웨어는 CUDA와 최신 드라이버가 필요하지만, 원리는 동일합니다. 당신의 음성은 로컬에서 받아써지고, 밖으로 보내지는 것은 없습니다.

속임수가 아니라, 그저 좋은 공학

여기에 신기한 일은 없습니다. DijiFlow Dictate는 열려 있고 잘 이해된 기술 위에 세워졌습니다 — 음성 모델로는 Whisper, 런타임으로는 WhisperKit과 CoreML, 하드웨어로는 Apple Silicon 말입니다. 중요한 결정은 그 모든 것을 당신의 기기에 둔다는 것입니다. 그래서 당신은 누구에게도 목소리를 넘기지 않으면서 — 무료, Trial, Pro에 걸쳐 — 현대적 받아쓰기의 편리함을 얻습니다.

읽기보다 직접 느껴 보고 싶다면, Pro 플랜에서 사적인 온디바이스 받아쓰기를 30일간 무료로 써 볼 수 있습니다.

DijiFlow DictateDijiFlow Dictate

DijiFlow Dictate 팀

프라이버시를 지키는 온디바이스 받아쓰기와 음성으로 더 많은 일을 해내는 방법에 관한 노트.

지금 핸즈프리로 받아쓰기를 시작하세요 오늘부터.

프라이버시를 지키며 100% 온디바이스로 동작하는 90+개 언어 음성-텍스트 변환 — 평생 무료, 더 필요할 땐 Pro로.