Η Meta ανακοινώνει το Voicebox, το παραγωγικό μοντέλο τεχνητής νοημοσύνης για τον ήχο

Η Meta ανακοίνωσε το πιο πρόσφατο παραγωγικό μοντέλο τεχνητής νοημοσύνης της, που ακολουθεί το ImageBind είναι το Voicebox, το οποίο έχει σχεδιαστεί για να βοηθήσει τους δημιουργούς με την ικανότητά του να εκτελεί εργασίες δημιουργίας ομιλίας, όπως επεξεργασία ήχου, δειγματοληψία και στυλιζάρισμα, ακόμη και αν δεν έχει εκπαιδευτεί ειδικά για να το κάνει μέσω της μάθησης εντός πλαισίου.

Η Meta διαφημίζει ότι αυτό το νέο μοντέλο τεχνητής νοημοσύνης θα έχει οφέλη για πολλούς ανθρώπους σε όλο τον κόσμο και χρησιμοποιεί παραδείγματα όπως το να βοηθάει άτομα με προβλήματα όρασης να ακούνε γραπτά μηνύματα από φίλους με τη φωνή τους, καθώς και να επιτρέπει στους ανθρώπους να μιλούν ξένες γλώσσες με τη δική τους φωνή.

Το ίδιο το μοντέλο τεχνητής νοημοσύνης μπορεί να παράγει τόσο υψηλής ποιότητας ηχητικά κλιπ όσο και να επεξεργαστεί προηχογραφημένο ήχο για να αφαιρέσει ανεπιθύμητες διακοπές, όπως οι κόρνες των αυτοκινήτων, διατηρώντας το περιεχόμενο και το ύφος του ήχου, ενώ είναι πολύγλωσσο, παράγοντας ομιλία σε έξι γλώσσες. Οι μελλοντικές εξελίξεις για το μοντέλο περιλαμβάνουν την απόδοση φωνών με φυσικό ήχο σε οπτικούς βοηθούς ή σε χαρακτήρες μη παικτών κατά τη διάρκεια παιχνιδιών στο metaverse.

Η Meta έχει επίσης συγκρίνει το Voicebox με άλλα μοντέλα τεχνητής νοημοσύνης ήχου που κυκλοφορούν εκεί έξω, αναφέροντας συγκεκριμένα τα Vall-E και YourTTS ως ανταγωνιστές, αποδεικνύοντας ότι το Voicebox είναι πιο προηγμένο και ξεπερνά και τα δύο μοντέλα όταν συγκρίνει τα ποσοστά σφάλματος Word και την ομοιότητα Style.

Το Voicebox έχει βασιστεί σε ένα μοντέλο Flow Matching, το οποίο είναι το πιο πρόσφατο μη αυτόματο παραγωγικό μοντέλο της Meta, το οποίο μπορεί να μάθει εξαιρετικά μη ντετερμινιστική αντιστοίχιση μεταξύ κειμένου και ομιλίας, επιτρέποντας στο Voicebox να μαθαίνει από ποικίλα δεδομένα ομιλίας χωρίς να χρειάζεται να είναι προσεκτικά επισημειωμένα, επιτρέποντας στα δεδομένα να είναι πιο ποικίλα και σε μεγαλύτερη κλίμακα.

Το Voicebox έχει εκπαιδευτεί μέχρι στιγμής σε περισσότερες από 50.000 ώρες ηχογραφημένης ομιλίας και απομαγνητοφωνημένων κειμένων από δημόσια ακουστικά βιβλία στα αγγλικά, γαλλικά, ισπανικά, γερμανικά, πολωνικά και πορτογαλικά και μπορεί επίσης να προβλέψει ένα τμήμα ομιλίας όταν του δίνεται η περιβάλλουσα ομιλία και το απομαγνητοφωνημένο κείμενο του τμήματος.

Τέλος, η Meta συνεχίζει να σχολιάζει ότι ενώ η τεχνολογία μπορεί να φέρει μια νέα εποχή της δημιουργικής τεχνητής νοημοσύνης για την ομιλία, θα μπορούσε να φέρει το ενδεχόμενο κακής χρήσης και ακούσιας βλάβης.

Στην ερευνητική εργασία που θα μοιραστεί η Meta σχετικά με το Voicebox, θα περιλαμβάνει λεπτομέρειες σχετικά με το πώς έχει δημιουργήσει έναν εξαιρετικά αποτελεσματικό ταξινομητή που μπορεί να διακρίνει μεταξύ αυθεντικής ομιλίας και ομιλίας που παράγεται από το Voicebox.

Η Meta δεν θα διαθέσει το ίδιο το πρόγραμμα τεχνητής νοημοσύνης για δημόσια χρήση, ούτε θα δημοσιοποιήσει τον πηγαίο κώδικα.