Η αυτόματη αναγνώριση ομιλίας γίνεται εύκολη με το Whisper του OpenAI

September 30, 2022 0 By admin

OpenAI Whisper

OpenAI Whisper

Το OpenAI’s Whisper είναι ένα νέο μοντέλο ML ανοιχτού κώδικα σχεδιασμένο για πολύγλωσση αυτόματη αναγνώριση ομιλίας

Το Whisper του OpenAI μπορεί να επιτύχει στιβαρότητα και ακρίβεια σε ανθρώπινο επίπεδο στο ASR με μόνο έναν μετασχηματιστή εκτός ραφιού εκπαιδευμένο σε 680.000 ώρες ασθενώς εποπτευόμενων, πολύγλωσσων δεδομένων ήχου. Όλα χωρίς την απαίτηση για μικρορύθμιση. Το μοντέλο είναι ανοιχτού κώδικα και διάφορα μεγέθη βάρους είναι διαθέσιμα στο κοινό. Ο μετασχηματιστής είναι ένα τυπικό μοντέλο κωδικοποιητή-αποκωδικοποιητή. Πρώτον, οι ηχογραφήσεις από διαφορετικές εργασίες αναγνώρισης ομιλίας μετατρέπονται σε φασματογράμματα log-Mel, τα οποία είναι ηχητικές αναπαραστάσεις στον τομέα χρόνου-συχνότητας-πλάτους, με συχνότητες που καταγράφονται σε Mels, μια λογαριθμική κλίμακα που στοχεύει στην αναπαραγωγή της ανθρώπινης αντίληψης του τόνου. Μετά από αυτό, χρησιμοποιείται μονοδιάστατη συνέλιξη χρησιμοποιώντας GELU για την επίτευξη μείωσης διαστάσεων στα φασματογράμματα.

Για να διασφαλιστεί ότι τα διαφορετικά χαρακτηριστικά κλιμακώνονται εξίσου και για να βελτιωθεί η ομοιομορφία του τοπίου των απωλειών, οι εισροές τυποποιούνται πάντα σε 0 μέσο όρο και διακύμανση μονάδας. Ενώ το GELU εγκαταλείπει στοχαστικά, αυξάνοντας την πιθανότητα διαγραφής εισόδου καθώς πέφτει το x, το ReLU εκτελεί εγκατάλειψη x0. Η είσοδος κωδικοποιείται σε θέση και μεταδίδεται μέσω της στοίβας κωδικοποιητή του μετασχηματιστή και η αναπαράσταση που δημιουργείται χρησιμοποιείται στη συνέχεια για να ρυθμίσει τον αυτοπαλινδρομικό αποκωδικοποιητή. Η αρχή και το τέλος μιας εργασίας, ο τύπος εργασίας, αν η ομιλία περιλαμβάνεται στην είσοδο ή όχι, οι πληροφορίες χρονικής σήμανσης και άλλες λεπτομέρειες υποδεικνύονται όλα με μοναδικά διακριτικά στην αρχή της διαδικασίας αποκωδικοποίησης.

Οι συγγραφείς χρησιμοποιούν πολλές στρατηγικές για να αποτρέψουν τον επαναληπτικό βρόχο ενώ η άπληστη αποκωδικοποίηση χρησιμοποιείται για τη δειγματοληψία εξόδων, όπως η έναρξη από τη θερμοκρασία 0 και η προοδευτική αύξηση της εάν η εντροπία των παραγόμενων διακριτικών είναι πολύ χαμηλή (κάποιος θα πρέπει να τους πει για τυπική δειγματοληψία).

Οι συγγραφείς αποφάσισαν να αναζητήσουν οποιαδήποτε δεδομένα ASR μπορούσαν να βρουν, επικεντρώνοντας σε μεθόδους προεπεξεργασίας δεδομένων, επειδή είναι δύσκολο να βρεθούν δεδομένα αναγνώρισης ομιλίας και μετάφρασης επικυρωμένα από τον άνθρωπο, εποπτευόμενα. Αυτές περιλάμβαναν ευρετικές μεθόδους εντοπισμού και εξαίρεσης μεταφράσεων που παράγονται από μηχανές, όπως η απουσία σημείων στίξης ή η χρήση όλων των κεφαλαίων. Για να εξασφαλίσουν την αντιστοίχιση μεταξύ της μεταγραφής και της γλώσσας ήχου, οι ερευνητές ανέπτυξαν επίσης έναν ανιχνευτή γλώσσας. Για να εντοπίσουν και να ελέγξουν με μη αυτόματο τρόπο τα σημεία δεδομένων με υψηλό ποσοστό σφάλματος και να παραλείψουν πιθανές ακραίες τιμές, πρώτα εκπαίδευσαν ένα μοντέλο στα δεδομένα. Το σύνολο δεδομένων ήταν δύο τάξεις μεγαλύτερο από τα προηγούμενα εποπτευόμενα σύνολα δεδομένων ASR με συνολικά 680.000 ώρες. Τα βάρη και ο κώδικας του μοντέλου δημοσιεύτηκαν, ωστόσο, αυτό το σύνολο δεδομένων δεν δημοσιεύτηκε.

Η μέτρηση του ποσοστού σφάλματος λέξης (WER), η οποία τιμωρεί κάθε ασυμφωνία μεταξύ της παραγωγής του μοντέλου και της αλήθειας βάσης, επικρίνεται από τους συγγραφείς. Μας ενδιαφέρουν τα σημασιολογικά ελαττώματα, όχι όλες αυτές οι στιλιστικές διαφορές. Για να τυποποιήσουν τη χρήση λέξεων και έτσι να μειώσουν το WER, οι συγγραφείς δημιούργησαν πολλά λεξικά. Η αποτελεσματική στιβαρότητα είναι μια άλλη παράμετρος που χρησιμοποιείται για τη μέτρηση της απόδοσης του μοντέλου. Η αποτελεσματική ευρωστία είναι η ευρωστία σε σύγκριση με ένα άλλο μοντέλο και η ευρωστία αξιολογεί πόσο καλά το μοντέλο γενικεύεται σε σύνολα δεδομένων εκτός διανομής. Όταν το Whisper και το wav2vec τοποθετούνται δίπλα-δίπλα, ανακαλύπτουμε ότι το Whisper έχει υψηλότερη αποτελεσματική στιβαρότητα και, κατά μέσο όρο, διαπράττει 55% λιγότερα σφάλματα.

Σύμφωνα με τις αρχές κλιμάκωσης των συγγραφέων, το WER μειώνεται κατά το ήμισυ για κάθε 16πλάσια αύξηση των δεδομένων προπόνησης. Θα πρέπει να αναμένουμε υπεράνθρωπες επιδόσεις για το ASR στην επερχόμενη γενιά μοντέλων, εάν αυτό ισχύει. Οι μη ινδοευρωπαϊκές γλώσσες συνήθως έχουν χειρότερες επιδόσεις, με τα Ουαλικά (CY) να είναι επίσης ακραία παρόλο που φέρεται να έχουν εκπαιδευτεί σε 9.000 ώρες μεταφραστικών δεδομένων. Ωστόσο, αυτή η τάση δεν ισχύει για όλες τις γλώσσες. Καθώς το WER πλησιάζει τα επίπεδα ανθρώπινου SR, η κλιμάκωση των παραμέτρων του μοντέλου έχει ως αποτέλεσμα τη μείωση των αποδόσεων.

Ο μεταφραστής ομιλίας Whisper από το OpenAI χρησιμοποιεί έναν τόνο δεδομένων και τεχνικών αποκωδικοποίησης για να επιτύχει μετάφραση και αναγνώριση ομιλίας σε ανθρώπινο επίπεδο. Το ερώτημα εάν οι μελλοντικοί αλγόριθμοι ASR θα ξεπεράσουν τους ανθρώπους τα επόμενα χρόνια πρέπει να απαντηθεί.

Η ανάρτηση Η αυτόματη αναγνώριση ομιλίας γίνεται εύκολη με το Whisper του OpenAI εμφανίστηκε πρώτα στο Analytics Insight.