The tech behind DijiFlow: Whisper, CoreML and Apple Silicon, explained simply

Apple Silicon4 Ιούνιος 20265 min read

Η τεχνολογία πίσω από το DijiFlow: Whisper, CoreML και Apple Silicon, εξηγημένα απλά

Πώς το DijiFlow Dictate μετατρέπει τη φωνή σας σε κείμενο εξ ολοκλήρου στη συσκευή σας, χρησιμοποιώντας Whisper, CoreML και Apple Silicon. Εξηγημένο σε απλή γλώσσα.

Η περισσότερη υπαγόρευση μοιάζει με μαγεία μέχρι να κάνετε το προφανές ερώτημα: πού πάει στ' αλήθεια η φωνή μου; Με το DijiFlow Dictate, η ειλικρινής απάντηση είναι πουθενά. Μιλάτε, το κείμενο εμφανίζεται στον δείκτη σας, και ούτε μία λέξη δεν ταξιδεύει σε διακομιστή. Χωρίς λογαριασμό, χωρίς μεταφόρτωση, χωρίς τηλεμετρία. Αυτό δεν είναι μια υπόσχεση ιδιωτικότητας προσκολλημένη στο τέλος — προκύπτει από το πώς είναι χτισμένη η εφαρμογή.

Τρία καλά κατανοητά κομμάτια το κάνουν να λειτουργεί: το Whisper, το ανοιχτό μοντέλο ομιλίας που κάνει την ακρόαση· το CoreML, το πλαίσιο που το τρέχει αποδοτικά σε ένα Mac· και το Apple Silicon, το τσιπ που το κάνει να νιώθει στιγμιαίο. Δεν χρειάζεται καμία προηγούμενη γνώση — να καθένα τους με απλά λόγια.

~12 MB
λήψη της εφαρμογής
300 MB–6 GB
μοντέλο ομιλίας, σε λήψη μία φορά
Neural Engine
όπου τρέχει πραγματικά η δουλειά

Whisper: μετατρέποντας τον ήχο σε λέξεις

Στην καρδιά του DijiFlow Dictate βρίσκεται το Whisper, μια οικογένεια μοντέλων αναγνώρισης ομιλίας ανοιχτού κώδικα από την OpenAI. Ένα μοντέλο ομιλίας είναι, με απλά λόγια, ένας πολύ μεγάλος αντιστοιχιστής μοτίβων εκπαιδευμένος σε τεράστιες ποσότητες ήχου σε ζεύγος με το κείμενό του. Από αυτά τα δεδομένα μαθαίνει πώς οι ήχοι που παράγουν οι άνθρωποι αντιστοιχούν στις λέξεις που εννοούν — σε διάφορες προφορές, θόρυβο περιβάλλοντος και τις φυσικές παύσεις της πραγματικής ομιλίας.

Όταν υπαγορεύετε, το Whisper προβλέπει την πιο πιθανή ακολουθία λέξεων από τον ήχο του μικροφώνου σας, και είναι γνήσια καλό σε αυτό. Σε καθαρή ομιλία φτάνει περίπου σε 98% ακρίβεια, και η πιο ικανή εκδοχή, το Whisper large-v3, χειρίζεται έως και 90+ γλώσσες. Επειδή διαβάζει το πλαίσιο αντί να αντιστοιχίζει μία λέξη τη φορά, ανταποκρίνεται στον ακατάστατο τρόπο που μιλούν πραγματικά οι άνθρωποι.

Γιατί το μοντέλο είναι ξεχωριστή λήψη

Αυτό είναι το κομμάτι που εκπλήσσει τους ανθρώπους: η εφαρμογή και η νοημοσύνη είναι δύο διαφορετικά αρχεία. Το ίδιο το DijiFlow Dictate είναι μικροσκοπικό — περίπου 12 MB. Τα μοντέλα ομιλίας Whisper είναι το βαρύ κομμάτι, κυμαινόμενα από περίπου 300 MB έως 6 GB ανάλογα με αυτό που επιλέγετε. Τα μεγαλύτερα μοντέλα είναι γενικά πιο ακριβή σε δύσκολο ήχο αλλά απαιτούν περισσότερα από τον εξοπλισμό σας, οπότε επιλέγετε την ισορροπία ταχύτητας και ακρίβειας που σας ταιριάζει.

Κατεβάζετε ένα μοντέλο μία φορά· μετά από αυτό, η μεταγραφή δεν χρειάζεται καθόλου διαδίκτυο. Αυτό το βήμα μίας φοράς είναι ακριβώς ο λόγος που η φωνή σας μπορεί να παραμείνει στο μηχάνημά σας.

CoreML: τρέχοντας το μοντέλο με τον αποδοτικό τρόπο

Ένα μοντέλο ομιλίας είναι χρήσιμο μόνο αν τρέχει γρήγορα χωρίς να αδειάζει την μπαταρία σας. Αυτή είναι η δουλειά του CoreML, του πλαισίου της Apple για την εκτέλεση μοντέλων μηχανικής μάθησης στις συσκευές της. Σκεφτείτε το ως έναν μεταφραστή και ρυθμιστή κυκλοφορίας: παίρνει ένα μοντέλο όπως το Whisper και υπολογίζει πώς να το τρέξει χρησιμοποιώντας τα καταλληλότερα μέρη του εξοπλισμού σας.

Το DijiFlow Dictate χρησιμοποιεί το WhisperKit, ένα περιβάλλον εκτέλεσης ανοιχτού κώδικα που μεταγλωττίζει το Whisper ώστε να τρέχει μέσω του CoreML. Αυτό σημαίνει ότι το μοντέλο είναι βελτιστοποιημένο ειδικά για τον εξοπλισμό της Apple αντί να τρέχει ως γενικός, πιο αργός κώδικας, οπότε η υπαγόρευση κρατά τον ρυθμό της φυσικής ομιλίας ενώ παραμένει ελαφριά στους πόρους του συστήματος. Και όλα συμβαίνουν τοπικά — το CoreML δεν είναι υπηρεσία cloud. Είναι μέρος του λειτουργικού συστήματος που επιτρέπει στις εφαρμογές να τρέχουν έξυπνες λειτουργίες ιδιωτικά και εκτός σύνδεσης.

Apple Silicon: το τσιπ που το κάνει στιγμιαίο

Το τελευταίο κομμάτι είναι ο εξοπλισμός. Στα σύγχρονα Mac αυτό σημαίνει Apple Silicon — τα τσιπ της σειράς M σε μηχανήματα που τρέχουν macOS 14 ή νεότερο. Αυτά τα τσιπ περιλαμβάνουν ένα αποκλειστικό Neural Engine, ένα τμήμα πυριτίου φτιαγμένο ειδικά για να τρέχει μοντέλα μηχανικής μάθησης γρήγορα και με πολύ λίγη ισχύ, με την GPU διαθέσιμη μέσω του Metal όταν βοηθά επιπλέον ισχύς.

Δεν ρυθμίζετε τίποτα από αυτά. Το CoreML κατανέμει τη δουλειά στον σωστό εξοπλισμό αυτόματα· εσείς απλώς μιλάτε, και το τσιπ το χειρίζεται σε πραγματικό χρόνο. Αυτό είναι το ήσυχο πλεονέκτημα του σχεδιασμού στη συσκευή: το ίδιο πυρίτιο που κάνει το Mac σας να νιώθει αποκριτικό είναι αυτό που κάνει την ιδιωτική υπαγόρευση πρακτική.

Όλη η αλυσίδα, από την αρχή ως το τέλος

Βάλτε τα τρία κομμάτια στη σειρά και το ταξίδι μετ' επιστροφής είναι σύντομο — και εξ ολοκλήρου τοπικό.

Μιλάτε
Ο ήχος από το μικρόφωνό σας καταγράφεται στη συσκευή, χωρίς ποτέ να μεταδίδεται κάπου.
Το Whisper τρέχει μέσω του CoreML στο Neural Engine
Το μοντέλο μετατρέπει τον ήχο σε λέξεις εκεί επιτόπου στο Apple Silicon, σε πραγματικό χρόνο.
Το κείμενο εμφανίζεται στον δείκτη σας
Οι λέξεις σας εμφανίζονται στην εφαρμογή στην οποία βρίσκεστε ήδη. Τίποτα δεν αποστέλλεται, οπότε δεν υπάρχει τίποτα να διαρρεύσει.

Βασικό συμπέρασμα

Το μοντέλο ζει στο μηχάνημά σας, οπότε η μεταγραφή είναι απλώς τοπικός υπολογισμός — δεν υπάρχει διακομιστής στον κύκλο για να αποθηκεύσει, να υποκλέψει ή να διατηρήσει σιωπηλά τη φωνή σας.

Λήψη μία φορά, και έπειτα εκτός σύνδεσης για πάντα

Τα περισσότερα εργαλεία φωνής είναι υπηρεσίες cloud που φορούν ένα εικονίδιο εφαρμογής: χρειάζονται μια σύνδεση και έναν λογαριασμό κάθε φορά, επειδή το μοντέλο που σας κατανοεί ζει στον εξοπλισμό κάποιου άλλου. Το DijiFlow Dictate το αντιστρέφει — εγκαθιστάτε μία φορά, και η δουλειά μετακινείται στο τσιπ σας.

Πώς συμπεριφέρεται	DijiFlow (στη συσκευή)	Υπαγόρευση cloud
Λειτουργεί μετά από λήψη μίας φοράς	✓	✗
Μεταγράφει χωρίς διαδίκτυο	✓	✗
Δεν απαιτείται λογαριασμός	✓	✗
Ο ήχος παραμένει στη συσκευή σας	✓	✗

Και πέρα από το Mac

Η ίδια προσέγγιση στη συσκευή επεκτείνεται στα Windows 10 και 11, όπου το DijiFlow Dictate τρέχει σε GPU της AMD, της Intel και της NVIDIA. Ο εξοπλισμός της NVIDIA χρειάζεται CUDA και έναν τρέχοντα οδηγό, αλλά η αρχή είναι πανομοιότυπη: η ομιλία σας μεταγράφεται τοπικά, και τίποτα δεν αποστέλλεται.

Κανένα κόλπο, μόνο καλή μηχανική

Δεν συμβαίνει τίποτα εξωτικό εδώ. Το DijiFlow Dictate είναι χτισμένο πάνω σε ανοιχτή, καλά κατανοητή τεχνολογία — Whisper για το μοντέλο ομιλίας, WhisperKit και CoreML για το περιβάλλον εκτέλεσης, και Apple Silicon για τον εξοπλισμό. Η απόφαση που έχει σημασία είναι να κρατήσουμε όλα αυτά στη συσκευή σας, ώστε να αποκτάτε την ευκολία της σύγχρονης υπαγόρευσης χωρίς ποτέ να παραδίδετε τη φωνή σας σε κανέναν, σε Δωρεάν, Δοκιμή και Pro.

Αν προτιμάτε να το νιώσετε παρά να διαβάσετε γι' αυτό, μπορείτε να δοκιμάσετε ιδιωτική υπαγόρευση στη συσκευή δωρεάν για 30 ημέρες στο πρόγραμμα Pro.

Η ομάδα του DijiFlow Dictate

Σημειώσεις για την ιδιωτική, 100% τοπική υπαγόρευση και για το πώς να κάνετε περισσότερα με τη φωνή σας.

Προηγούμενο Υπαγόρευση για συγγραφείς και φοιτητές: ταχύτερα προσχέδια, σημειώσεις και δοκίμια Επόμενο Υπαγόρευση για συγγραφείς και φοιτητές: ταχύτερα προσχέδια, σημειώσεις και δοκίμια

Ξεκινήστε να υπαγορεύετε χωρίς χέρια σήμερα.

Ιδιωτική, 100% τοπική μετατροπή φωνής σε κείμενο σε 90+ γλώσσες — δωρεάν για πάντα, με Pro όταν χρειάζεστε περισσότερα.

Αποκτήστε το DijiFlow Pro Δωρεάν λήψη

Το προϊόν προστέθηκε στο καλάθι!