Οι ερευνητές χρησιμοποίησαν τη γενετική τεχνητή νοημοσύνη για να ανακατασκευάσουν βίντεο “υψηλής ποιότητας” από την εγκεφαλική δραστηριότητα, αναφέρει μια νέα μελέτη.
Οι ερευνητές Jiaxin Qing, Zijiao Chen και Juan Helen Zhou από το Εθνικό Πανεπιστήμιο της Σιγκαπούρης και το Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ χρησιμοποίησαν δεδομένα fMRI και το μοντέλο τεχνητής νοημοσύνης από κείμενο σε εικόνα Stable Diffusion για να δημιουργήσουν ένα μοντέλο που ονομάζεται MinD-Video και παράγει βίντεο από τις εγκεφαλικές μετρήσεις. Το έγγραφό τους που περιγράφει την εργασία δημοσιεύτηκε στον διακομιστή arXiv preprint την περασμένη εβδομάδα.
Η επίδειξή τους στον αντίστοιχο ιστότοπο της εργασίας δείχνει έναν παραλληλισμό μεταξύ των βίντεο που έδειξαν στα υποκείμενα και των βίντεο που δημιούργησε η τεχνητή νοημοσύνη με βάση την εγκεφαλική τους δραστηριότητα. Οι διαφορές μεταξύ των δύο βίντεο είναι μικρές και ως επί το πλείστον περιέχουν παρόμοια θέματα και παλέτες χρωμάτων.
Το MinD-Video ορίζεται από τους ερευνητές ως ένας “αγωγός δύο μονάδων που έχει σχεδιαστεί για να γεφυρώσει το χάσμα μεταξύ της αποκωδικοποίησης εικόνας και βίντεο από τον εγκέφαλο”. Για να εκπαιδεύσουν το σύστημα, οι ερευνητές χρησιμοποίησαν ένα δημόσια διαθέσιμο σύνολο δεδομένων που περιείχε βίντεο και εγκεφαλικές μετρήσεις fMRI από πειραματόζωα που τα παρακολούθησαν. Ο “αγωγός δύο μονάδων” περιελάμβανε έναν εκπαιδευμένο κωδικοποιητή fMRI και μια λεπτομερώς ρυθμισμένη έκδοση του Stable Diffusion, ενός ευρέως χρησιμοποιούμενου μοντέλου AI για τη δημιουργία εικόνων.
Τα βίντεο που δημοσίευσαν οι ερευνητές δείχνουν το αρχικό βίντεο με άλογα σε ένα χωράφι και στη συνέχεια ένα ανακατασκευασμένο βίντεο με μια πιο έντονα χρωματισμένη εκδοχή των αλόγων. Σε ένα άλλο βίντεο, ένα αυτοκίνητο κινείται σε μια δασώδη περιοχή και το ανακατασκευασμένο βίντεο εμφανίζει μια άποψη πρώτου προσώπου (first-person-POV) κάποιου που ταξιδεύει σε έναν ελικοειδή δρόμο. Οι ερευνητές διαπίστωσαν ότι τα ανακατασκευασμένα βίντεο ήταν “υψηλής ποιότητας”, όπως ορίζεται από τις κινήσεις και τη δυναμική της σκηνής. Ανέφεραν επίσης ότι τα βίντεο είχαν ακρίβεια 85 τοις εκατό, μια βελτίωση σε σχέση με προηγούμενες προσεγγίσεις.
“Πιστεύουμε ότι αυτός ο τομέας έχει πολλά υποσχόμενες εφαρμογές καθώς αναπτύσσονται μεγάλα μοντέλα, από τις νευροεπιστήμες έως τις διεπαφές εγκεφάλου-υπολογιστή”, έγραψαν οι συγγραφείς.
Συγκεκριμένα, δήλωσαν ότι τα αποτελέσματα αυτά φώτισαν τρία σημαντικά ευρήματα. Το ένα είναι η κυριαρχία του οπτικού φλοιού, αποκαλύπτοντας ότι αυτό το τμήμα του εγκεφάλου αποτελεί σημαντικό συστατικό της οπτικής αντίληψης. Ένα άλλο είναι ότι ο κωδικοποιητής fMRI λειτουργεί με ιεραρχικό τρόπο, ο οποίος ξεκινά με δομικές πληροφορίες και στη συνέχεια μετατοπίζεται σε πιο αφηρημένα και οπτικά χαρακτηριστικά σε βαθύτερα στρώματα. Τέλος, οι συγγραφείς διαπίστωσαν ότι ο κωδικοποιητής fMRI εξελίχθηκε μέσα από κάθε στάδιο μάθησης, δείχνοντας την ικανότητά του να προσλαμβάνει πιο διαφοροποιημένες πληροφορίες καθώς συνεχίζει την εκπαίδευσή του.
Η μελέτη αυτή αποτελεί άλλη μια πρόοδο στον τομέα της, ουσιαστικά, ανάγνωσης του μυαλού των ανθρώπων με τη χρήση της τεχνητής νοημοσύνης. Προηγουμένως, ερευνητές του Πανεπιστημίου της Οσάκα διαπίστωσαν ότι μπορούσαν να ανακατασκευάσουν εικόνες υψηλής ανάλυσης από την εγκεφαλική δραστηριότητα με μια τεχνική που χρησιμοποιούσε επίσης δεδομένα fMRI και Stable Diffusion.
Το επαυξημένο μοντέλο Stable Diffusion σε αυτή τη νέα έρευνα επιτρέπει στην απεικόνιση να είναι πιο ακριβής. “Ένα από τα βασικά πλεονεκτήματα του μοντέλου σταθερής διάχυσης που διαθέτουμε σε σχέση με άλλα παραγωγικά μοντέλα, όπως τα GAN, έγκειται στην ικανότητά του να παράγει βίντεο υψηλότερης ποιότητας. Αξιοποιεί τις αναπαραστάσεις που μαθαίνει ο κωδικοποιητής fMRI και χρησιμοποιεί τη μοναδική διαδικασία διάχυσης για να παράγει βίντεο που δεν είναι μόνο ανώτερης ποιότητας αλλά και καλύτερα ευθυγραμμισμένα με τις αρχικές νευρωνικές δραστηριότητες”, έγραψαν οι ερευνητές.