Οι ερευνητές της Google ανέπτυξαν ένα νέο σύστημα τεχνητής νοημοσύνης που μπορεί να παράγει ζωντανά βίντεο ανθρώπων που μιλούν, κάνουν χειρονομίες και κινούνται – από μία μόνο φωτογραφία. Η τεχνολογία, που ονομάζεται VLOGGER, βασίζεται σε προηγμένα μοντέλα μηχανικής μάθησης για τη σύνθεση εντυπωσιακά ρεαλιστικού υλικού, ανοίγοντας μια σειρά πιθανών εφαρμογών, ενώ παράλληλα εγείρει ανησυχίες σχετικά με τα deepfakes και την παραπληροφόρηση.
Περιγράφεται σε ένα ερευνητικό έγγραφο με τίτλο “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, το μοντέλο τεχνητής νοημοσύνης μπορεί να λάβει ως είσοδο τη φωτογραφία ενός ατόμου και ένα ηχητικό κλιπ και στη συνέχεια να εξάγει ένα βίντεο που ταιριάζει με τον ήχο, δείχνοντας το άτομο να μιλάει τις λέξεις και να κάνει τις αντίστοιχες εκφράσεις του προσώπου, κινήσεις του κεφαλιού και χειρονομίες. Τα βίντεο δεν είναι τέλεια, με κάποια τεχνουργήματα, αλλά αντιπροσωπεύουν ένα σημαντικό άλμα στην ικανότητα εμψύχωσης ακίνητων εικόνων.
Μια σημαντική ανακάλυψη στη σύνθεση ομιλούντων κεφαλών
Οι ερευνητές, με επικεφαλής τον Enric Corona της Google Research, αξιοποίησαν έναν τύπο μοντέλου μηχανικής μάθησης που ονομάζεται μοντέλο διάχυσης για να επιτύχουν το νέο αποτέλεσμα. Τα μοντέλα διάχυσης έχουν δείξει πρόσφατα αξιοσημείωτες επιδόσεις στη δημιουργία εξαιρετικά ρεαλιστικών εικόνων από περιγραφές κειμένου. Επεκτείνοντάς τα στον τομέα των βίντεο και εκπαιδεύοντάς τα σε ένα τεράστιο νέο σύνολο δεδομένων, η ομάδα κατάφερε να δημιουργήσει ένα σύστημα τεχνητής νοημοσύνης που μπορεί να ζωντανέψει φωτογραφίες με ιδιαίτερα πειστικό τρόπο.
“Σε αντίθεση με προηγούμενες εργασίες, η μέθοδός μας δεν απαιτεί εκπαίδευση για κάθε άτομο, δεν βασίζεται στην ανίχνευση προσώπου και την περικοπή, παράγει την πλήρη εικόνα (όχι μόνο το πρόσωπο ή τα χείλη) και εξετάζει ένα ευρύ φάσμα σεναρίων (π.χ. ορατός κορμός ή ποικίλες ταυτότητες υποκειμένων) που είναι κρίσιμα για τη σωστή σύνθεση ανθρώπων που επικοινωνούν”, έγραψαν οι συγγραφείς.
Βασικός παράγοντας ήταν η επιμέλεια ενός τεράστιου νέου συνόλου δεδομένων με την ονομασία MENTOR, το οποίο περιέχει πάνω από 800.000 διαφορετικές ταυτότητες και 2.200 ώρες βίντεο – μια τάξη μεγέθους μεγαλύτερη από ό,τι ήταν διαθέσιμο στο παρελθόν. Αυτό επέτρεψε στο VLOGGER να μάθει να παράγει βίντεο με ανθρώπους διαφορετικής εθνικότητας, ηλικίας, ένδυσης, πόζας και περιβάλλοντος χωρίς προκατάληψη.
Πιθανές εφαρμογές και κοινωνικές επιπτώσεις
Η τεχνολογία ανοίγει μια σειρά συναρπαστικών περιπτώσεων χρήσης. Το έγγραφο παρουσιάζει την ικανότητα του VLOGGER να μεταγλωττίζει αυτόματα βίντεο σε άλλες γλώσσες με απλή αλλαγή του ηχητικού κομματιού, να επεξεργάζεται και να συμπληρώνει απρόσκοπτα τα καρέ που λείπουν σε ένα βίντεο και να δημιουργεί πλήρη βίντεο ενός ατόμου από μία μόνο φωτογραφία.
Κάποιος θα μπορούσε να φανταστεί ηθοποιούς που θα μπορούσαν να αδειοδοτήσουν λεπτομερή τρισδιάστατα μοντέλα του εαυτού τους, τα οποία θα μπορούσαν να χρησιμοποιηθούν για τη δημιουργία νέων παραστάσεων. Η τεχνολογία θα μπορούσε επίσης να χρησιμοποιηθεί για τη δημιουργία φωτορεαλιστικών άβαταρ για την εικονική πραγματικότητα και τα παιχνίδια. Και θα μπορούσε να επιτρέψει τη δημιουργία εικονικών βοηθών και ρομπότ συνομιλίας με τεχνητή νοημοσύνη που θα είναι πιο ελκυστικά και εκφραστικά.
Η Google βλέπει το VLOGGER ως ένα βήμα προς τους “ενσώματους πράκτορες συνομιλίας” που μπορούν να επικοινωνούν με τους ανθρώπους με φυσικό τρόπο μέσω της ομιλίας, των χειρονομιών και της οπτικής επαφής. “Το VLOGGER μπορεί να χρησιμοποιηθεί ως αυτόνομη λύση για παρουσιάσεις, εκπαίδευση, αφήγηση, διαδικτυακή επικοινωνία χαμηλού εύρους ζώνης και ως διεπαφή για αλληλεπίδραση ανθρώπου-υπολογιστή μόνο με κείμενο”, γράφουν οι συγγραφείς.
Ωστόσο, η τεχνολογία έχει επίσης τη δυνατότητα κακής χρήσης, για παράδειγμα στη δημιουργία deepfakes – συνθετικών μέσων στα οποία ένα πρόσωπο σε ένα βίντεο αντικαθίσταται με το ομοίωμα κάποιου άλλου. Καθώς αυτά τα βίντεο που δημιουργούνται με τεχνητή νοημοσύνη γίνονται πιο ρεαλιστικά και ευκολότερα στη δημιουργία, θα μπορούσε να επιδεινώσει τις προκλήσεις γύρω από την παραπληροφόρηση και την ψηφιακή πλαστογράφηση.
Ένα νέο σύνορο στην έρευνα για την τεχνητή νοημοσύνη
Αν και εντυπωσιακό, το VLOGGER εξακολουθεί να έχει περιορισμούς. Τα παραγόμενα βίντεο είναι σχετικά σύντομα και έχουν στατικό φόντο. Τα άτομα δεν κινούνται σε ένα τρισδιάστατο περιβάλλον. Και οι μανιέρες και τα μοτίβα ομιλίας τους, αν και ρεαλιστικά, δεν είναι ακόμη δυσδιάκριτα από εκείνα των πραγματικών ανθρώπων.
Παρ’ όλα αυτά, το VLOGGER αποτελεί ένα σημαντικό βήμα προς τα εμπρός. “Αξιολογούμε το VLOGGER σε τρία διαφορετικά benchmarks και δείχνουμε ότι το προτεινόμενο μοντέλο ξεπερνά άλλες σύγχρονες μεθόδους στην ποιότητα της εικόνας, τη διατήρηση της ταυτότητας και τη χρονική συνέπεια”, ανέφεραν οι συγγραφείς.
Με περαιτέρω πρόοδο, αυτό το είδος των μέσων που δημιουργούνται από τεχνητή νοημοσύνη είναι πιθανό να γίνει πανταχού παρόν. Σύντομα μπορεί να ζήσουμε σε έναν κόσμο όπου είναι δύσκολο να καταλάβουμε αν το πρόσωπο που μας μιλάει σε ένα βίντεο είναι πραγματικό ή δημιουργήθηκε από ένα πρόγραμμα υπολογιστή.
Το VLOGGER παρέχει μια πρώιμη γεύση αυτού του μέλλοντος. Είναι μια ισχυρή επίδειξη της ταχείας προόδου που σημειώνεται στην τεχνητή νοημοσύνη και ένα σημάδι των αυξανόμενων προκλήσεων που θα αντιμετωπίσουμε στη διάκριση μεταξύ του τι είναι πραγματικό και τι ψεύτικο.