Η OpenAI έκανε τεράστιο θόρυβο αυτή την εβδομάδα με την τεχνητή νοημοσύνη που μετατρέπει κείμενο σε φωτορεαλιστικό βίντεο που ονομάζεται Sora.
Η εταιρεία παρουσίασε μερικά σοβαρά εντυπωσιακά δείγματα κλιπ, από ένα ζευγάρι που περπατάει μέσα σε ένα χιονισμένο τοπίο μέχρι μια εναέρια κάμερα που ακολουθεί ομαλά ένα λευκό vintage SUV καθώς ανεβαίνει έναν χωματόδρομο.
Σίγουρα φαίνεται να είναι ένα σημαντικό άλμα για την τεχνολογία της δημιουργικής τεχνητής νοημοσύνης – και ίσως σε τομείς πολύ πέρα από το βίντεο. Στην πραγματικότητα, η OpenAI αναφέρεται ήδη στο Sora ως έναν “προσομοιωτή κόσμου”, ικανό να κατανοήσει σημαντικές πτυχές του τρισδιάστατου κόσμου γύρω μας, είτε πρόκειται για την εξαγωγή μιας σκηνής που μοιάζει με CGI ενός ψηφιακού τοπίου είτε για το βίντεο μιας γυναίκας που περπατάει σε έναν δρόμο με φώτα νέον τη νύχτα. “Τα αποτελέσματά μας υποδηλώνουν ότι η κλιμάκωση των μοντέλων δημιουργίας βίντεο είναι μια πολλά υποσχόμενη πορεία προς τη δημιουργία προσομοιωτών γενικού σκοπού του φυσικού κόσμου”, έγραψε η εταιρεία.
“Μαθαίνει για την τρισδιάστατη γεωμετρία και τη συνοχή”, δήλωσε στο Wired ο ερευνητής της Sora Tim Brooks. “Δεν το ενσωματώσαμε αυτό – προέκυψε εξ ολοκλήρου από τη θέαση πολλών δεδομένων”.
Σε γενικές γραμμές, το Sora είναι η φυσική εξέλιξη ενός μοντέλου μετασχηματιστή διάχυσης, το οποίο μέχρι στιγμής χρησιμοποιείται κυρίως για την τεχνητή νοημοσύνη στη δημιουργία εικόνων υψηλής ανάλυσης. Με απλά λόγια, τα μοντέλα διάχυσης λειτουργούν προσθέτοντας σταδιακά θόρυβο στην αρχική εικόνα και στη συνέχεια μαθαίνοντας σταδιακά πώς να αφαιρούν αυτόν τον θόρυβο, δημιουργώντας έτσι μια νέα εικόνα.
Για να εκπαιδεύσει το Sora, το OpenAI το τροφοδότησε με τεράστιες ποσότητες βίντεο με λεζάντες, ώστε να δημιουργήσει μια σύνδεση μεταξύ βίντεο και εισαγωγής κειμένου.
Εκτός από τη δημιουργία εντελώς νέου υλικού από προτροπές, το Sora μπορεί επίσης να επεκτείνει υπάρχοντα κλιπ ή να μετατρέψει εικόνες που δημιουργούνται από την τεχνητή νοημοσύνη σε βίντεο. Κατά την ανάπτυξη του Sora, οι ερευνητές της OpenAI παρατήρησαν μια “σειρά από ενδιαφέρουσες αναδυόμενες δυνατότητες όταν εκπαιδεύεται σε κλίμακα”. Για παράδειγμα, μπορεί “να προσομοιώνει ορισμένες πτυχές ανθρώπων, ζώων και περιβαλλόντων από τον φυσικό κόσμο”, σύμφωνα με την τεκμηρίωση της εταιρείας.
Τα παραγόμενα αποσπάσματα δείχνουν ότι το Sora μπορεί να παράγει υλικό με δυναμικές και εκπληκτικά ομαλές μετατοπίσεις της κάμερας καθώς κάνει pans, tracks ή zoom, επιδεικνύοντας έναν σημαντικό βαθμό προφανής κατανόησης των τρισδιάστατων χώρων.
Είναι δελεαστικό το γεγονός ότι η εταιρεία φαίνεται να υπονοεί ότι η τεχνολογία θα μπορούσε να εξελιχθεί σε μια πλατφόρμα για παιχνίδια.
“Αυτές οι δυνατότητες υποδηλώνουν ότι η συνεχής κλιμάκωση των μοντέλων βίντεο είναι μια πολλά υποσχόμενη πορεία προς την ανάπτυξη προσομοιωτών υψηλής ικανότητας του φυσικού και ψηφιακού κόσμου”, γράφει η εταιρεία, “και των αντικειμένων, των ζώων και των ανθρώπων που ζουν μέσα σε αυτούς”.
Ταυτόχρονα, το Sora απέχει πολύ από το να είναι τέλειο. Πρώτον, το μοντέλο δεν κατανοεί ακόμη πλήρως την αιτία και το αποτέλεσμα.
“Για παράδειγμα, ένα άτομο μπορεί να δαγκώσει ένα μπισκότο, αλλά μετά, το μπισκότο μπορεί να μην έχει σημάδι από δάγκωμα”, γράφει η εταιρεία.
Ένα άλλο απόσπασμα δείχνει ένα γυάλινο κύπελλο να διαρρέει το περιεχόμενό του χωρίς να σπάσει πρώτα.
Παρά τους περιορισμούς του, το Sora μπορεί να είναι μια πρώτη ματιά σε ένα μέλλον στο οποίο τα βίντεο που δημιουργούνται με τεχνητή νοημοσύνη θα είναι γρήγορα αδύνατο να διακριθούν από τα πραγματικά.
Και η OpenAI έχει απόλυτη επίγνωση των δυνατοτήτων κακής χρήσης της τεχνολογίας. Ως αποτέλεσμα, η εταιρεία έχει επιλέξει να αναπτύξει σιγά-σιγά το εργαλείο σε “κόκκινες ομάδες για την αξιολόγηση κρίσιμων περιοχών για βλάβες ή κινδύνους”.
“Θα είμαστε πολύ προσεκτικοί σχετικά με όλες τις επιπτώσεις στην ασφάλεια για αυτό”, δήλωσε ο ερευνητής του έργου Bill Peebles στο Wired.