Free, Trial ή Pro: Επιλέγοντας το σωστό πλάνο DijiFlow (και τι περιλαμβάνει το καθένα)
Συγκρίνετε τα πλάνα Free, Trial και Pro του DijiFlow Dictate. Δείτε ακριβώς τι περιλαμβάνει κάθε επίπεδο, ώστε να επι...
Έχετε %itemCount% στο καλάθι σας.Σύνολο %total%
Πώς το DijiFlow Dictate μετατρέπει τη φωνή σας σε κείμενο εξ ολοκλήρου στη συσκευή σας, χρησιμοποιώντας Whisper, CoreML και Apple Silicon. Εξηγημένο σε απλή γλώσσα.
Η περισσότερη υπαγόρευση μοιάζει με μαγεία μέχρι να κάνετε το προφανές ερώτημα: πού πάει στ' αλήθεια η φωνή μου; Με το DijiFlow Dictate, η ειλικρινής απάντηση είναι πουθενά. Μιλάτε, το κείμενο εμφανίζεται στον δείκτη σας, και ούτε μία λέξη δεν ταξιδεύει σε διακομιστή. Χωρίς λογαριασμό, χωρίς μεταφόρτωση, χωρίς τηλεμετρία. Αυτό δεν είναι μια υπόσχεση ιδιωτικότητας προσκολλημένη στο τέλος — προκύπτει από το πώς είναι χτισμένη η εφαρμογή.
Τρία καλά κατανοητά κομμάτια το κάνουν να λειτουργεί: το Whisper, το ανοιχτό μοντέλο ομιλίας που κάνει την ακρόαση· το CoreML, το πλαίσιο που το τρέχει αποδοτικά σε ένα Mac· και το Apple Silicon, το τσιπ που το κάνει να νιώθει στιγμιαίο. Δεν χρειάζεται καμία προηγούμενη γνώση — να καθένα τους με απλά λόγια.
Στην καρδιά του DijiFlow Dictate βρίσκεται το Whisper, μια οικογένεια μοντέλων αναγνώρισης ομιλίας ανοιχτού κώδικα από την OpenAI. Ένα μοντέλο ομιλίας είναι, με απλά λόγια, ένας πολύ μεγάλος αντιστοιχιστής μοτίβων εκπαιδευμένος σε τεράστιες ποσότητες ήχου σε ζεύγος με το κείμενό του. Από αυτά τα δεδομένα μαθαίνει πώς οι ήχοι που παράγουν οι άνθρωποι αντιστοιχούν στις λέξεις που εννοούν — σε διάφορες προφορές, θόρυβο περιβάλλοντος και τις φυσικές παύσεις της πραγματικής ομιλίας.
Όταν υπαγορεύετε, το Whisper προβλέπει την πιο πιθανή ακολουθία λέξεων από τον ήχο του μικροφώνου σας, και είναι γνήσια καλό σε αυτό. Σε καθαρή ομιλία φτάνει περίπου σε 98% ακρίβεια, και η πιο ικανή εκδοχή, το Whisper large-v3, χειρίζεται έως και 90+ γλώσσες. Επειδή διαβάζει το πλαίσιο αντί να αντιστοιχίζει μία λέξη τη φορά, ανταποκρίνεται στον ακατάστατο τρόπο που μιλούν πραγματικά οι άνθρωποι.
Αυτό είναι το κομμάτι που εκπλήσσει τους ανθρώπους: η εφαρμογή και η νοημοσύνη είναι δύο διαφορετικά αρχεία. Το ίδιο το DijiFlow Dictate είναι μικροσκοπικό — περίπου 12 MB. Τα μοντέλα ομιλίας Whisper είναι το βαρύ κομμάτι, κυμαινόμενα από περίπου 300 MB έως 6 GB ανάλογα με αυτό που επιλέγετε. Τα μεγαλύτερα μοντέλα είναι γενικά πιο ακριβή σε δύσκολο ήχο αλλά απαιτούν περισσότερα από τον εξοπλισμό σας, οπότε επιλέγετε την ισορροπία ταχύτητας και ακρίβειας που σας ταιριάζει.
Κατεβάζετε ένα μοντέλο μία φορά· μετά από αυτό, η μεταγραφή δεν χρειάζεται καθόλου διαδίκτυο. Αυτό το βήμα μίας φοράς είναι ακριβώς ο λόγος που η φωνή σας μπορεί να παραμείνει στο μηχάνημά σας.
Ένα μοντέλο ομιλίας είναι χρήσιμο μόνο αν τρέχει γρήγορα χωρίς να αδειάζει την μπαταρία σας. Αυτή είναι η δουλειά του CoreML, του πλαισίου της Apple για την εκτέλεση μοντέλων μηχανικής μάθησης στις συσκευές της. Σκεφτείτε το ως έναν μεταφραστή και ρυθμιστή κυκλοφορίας: παίρνει ένα μοντέλο όπως το Whisper και υπολογίζει πώς να το τρέξει χρησιμοποιώντας τα καταλληλότερα μέρη του εξοπλισμού σας.
Το DijiFlow Dictate χρησιμοποιεί το WhisperKit, ένα περιβάλλον εκτέλεσης ανοιχτού κώδικα που μεταγλωττίζει το Whisper ώστε να τρέχει μέσω του CoreML. Αυτό σημαίνει ότι το μοντέλο είναι βελτιστοποιημένο ειδικά για τον εξοπλισμό της Apple αντί να τρέχει ως γενικός, πιο αργός κώδικας, οπότε η υπαγόρευση κρατά τον ρυθμό της φυσικής ομιλίας ενώ παραμένει ελαφριά στους πόρους του συστήματος. Και όλα συμβαίνουν τοπικά — το CoreML δεν είναι υπηρεσία cloud. Είναι μέρος του λειτουργικού συστήματος που επιτρέπει στις εφαρμογές να τρέχουν έξυπνες λειτουργίες ιδιωτικά και εκτός σύνδεσης.
Το τελευταίο κομμάτι είναι ο εξοπλισμός. Στα σύγχρονα Mac αυτό σημαίνει Apple Silicon — τα τσιπ της σειράς M σε μηχανήματα που τρέχουν macOS 14 ή νεότερο. Αυτά τα τσιπ περιλαμβάνουν ένα αποκλειστικό Neural Engine, ένα τμήμα πυριτίου φτιαγμένο ειδικά για να τρέχει μοντέλα μηχανικής μάθησης γρήγορα και με πολύ λίγη ισχύ, με την GPU διαθέσιμη μέσω του Metal όταν βοηθά επιπλέον ισχύς.
Δεν ρυθμίζετε τίποτα από αυτά. Το CoreML κατανέμει τη δουλειά στον σωστό εξοπλισμό αυτόματα· εσείς απλώς μιλάτε, και το τσιπ το χειρίζεται σε πραγματικό χρόνο. Αυτό είναι το ήσυχο πλεονέκτημα του σχεδιασμού στη συσκευή: το ίδιο πυρίτιο που κάνει το Mac σας να νιώθει αποκριτικό είναι αυτό που κάνει την ιδιωτική υπαγόρευση πρακτική.
Βάλτε τα τρία κομμάτια στη σειρά και το ταξίδι μετ' επιστροφής είναι σύντομο — και εξ ολοκλήρου τοπικό.
Ο ήχος από το μικρόφωνό σας καταγράφεται στη συσκευή, χωρίς ποτέ να μεταδίδεται κάπου.
Το μοντέλο μετατρέπει τον ήχο σε λέξεις εκεί επιτόπου στο Apple Silicon, σε πραγματικό χρόνο.
Οι λέξεις σας εμφανίζονται στην εφαρμογή στην οποία βρίσκεστε ήδη. Τίποτα δεν αποστέλλεται, οπότε δεν υπάρχει τίποτα να διαρρεύσει.
Βασικό συμπέρασμα
Το μοντέλο ζει στο μηχάνημά σας, οπότε η μεταγραφή είναι απλώς τοπικός υπολογισμός — δεν υπάρχει διακομιστής στον κύκλο για να αποθηκεύσει, να υποκλέψει ή να διατηρήσει σιωπηλά τη φωνή σας.
Τα περισσότερα εργαλεία φωνής είναι υπηρεσίες cloud που φορούν ένα εικονίδιο εφαρμογής: χρειάζονται μια σύνδεση και έναν λογαριασμό κάθε φορά, επειδή το μοντέλο που σας κατανοεί ζει στον εξοπλισμό κάποιου άλλου. Το DijiFlow Dictate το αντιστρέφει — εγκαθιστάτε μία φορά, και η δουλειά μετακινείται στο τσιπ σας.
| Πώς συμπεριφέρεται | DijiFlow (στη συσκευή) | Υπαγόρευση cloud |
|---|---|---|
| Λειτουργεί μετά από λήψη μίας φοράς | ✓ | ✗ |
| Μεταγράφει χωρίς διαδίκτυο | ✓ | ✗ |
| Δεν απαιτείται λογαριασμός | ✓ | ✗ |
| Ο ήχος παραμένει στη συσκευή σας | ✓ | ✗ |
Η ίδια προσέγγιση στη συσκευή επεκτείνεται στα Windows 10 και 11, όπου το DijiFlow Dictate τρέχει σε GPU της AMD, της Intel και της NVIDIA. Ο εξοπλισμός της NVIDIA χρειάζεται CUDA και έναν τρέχοντα οδηγό, αλλά η αρχή είναι πανομοιότυπη: η ομιλία σας μεταγράφεται τοπικά, και τίποτα δεν αποστέλλεται.
Δεν συμβαίνει τίποτα εξωτικό εδώ. Το DijiFlow Dictate είναι χτισμένο πάνω σε ανοιχτή, καλά κατανοητή τεχνολογία — Whisper για το μοντέλο ομιλίας, WhisperKit και CoreML για το περιβάλλον εκτέλεσης, και Apple Silicon για τον εξοπλισμό. Η απόφαση που έχει σημασία είναι να κρατήσουμε όλα αυτά στη συσκευή σας, ώστε να αποκτάτε την ευκολία της σύγχρονης υπαγόρευσης χωρίς ποτέ να παραδίδετε τη φωνή σας σε κανέναν, σε Free, Trial και Pro.
Αν προτιμάτε να το νιώσετε παρά να διαβάσετε γι' αυτό, μπορείτε να δοκιμάσετε ιδιωτική υπαγόρευση στη συσκευή δωρεάν για 30 ημέρες στο πρόγραμμα Pro.
Ιδιωτική, 100% τοπική μετατροπή φωνής σε κείμενο σε 90+ γλώσσες — δωρεάν για πάντα, με Pro όταν χρειάζεστε περισσότερα.