Προηγμένα μοντέλα ΤΝ καταρρέουν στη δοκιμασία Stroop όσο αυξάνονται οι γνωστικές απαιτήσεις

Νέα έρευνα δείχνει ότι, παρότι τα προηγμένα μοντέλα τεχνητής νοημοσύνης επεξεργάζονται τη γλώσσα με εντυπωσιακή δεξιότητα, δυσκολεύονται σημαντικά σε εργασίες που απαιτούν διαρκή προσήλωση και επίλυση συγκρούσεων, όπως αυτές που παρατηρούνται στην ανθρώπινη προσοχή.

Η μελέτη, που δημοσιεύθηκε στο PNAS Nexus, υποδεικνύει ότι όσο αυξάνονται οι γνωστικές απαιτήσεις, τα μοντέλα παρουσιάζουν πλήρη κατάρρευση στην ικανότητά τους να υπερβαίνουν αυτόματες αποκρίσεις. Τα ευρήματα υποδηλώνουν ότι τα σημερινά συστήματα ΤΝ στερούνται θεμελιώδους εκτελεστικού ελέγχου, κρίσιμου για την ανάπτυξη αληθινής τεχνητής γενικής νοημοσύνης.

Για να κατανοηθεί το πλαίσιο, τα σύγχρονα γλωσσικά μοντέλα, όπως το ChatGPT, βασίζονται στην αρχιτεκτονική transformer. Αυτή αξιοποιεί έναν ειδικό μηχανισμό προσοχής που αποδίδει βάρη σε διαφορετικά τμήματα του κειμένου, προβλέποντας τη συνέχεια των λέξεων βάσει στατιστικών προτύπων.

Ο Suketu Patel, υποψήφιος διδάκτορας στη συγκριτική και γνωσιακή ψυχολογία στο Graduate Center του City University of New York, πραγματοποίησε την έρευνα μαζί με συνεργάτες στο εργαστήριο του Jin Fan στο Queens College, CUNY. Όπως σημείωσε, η αρχική δημόσια υποδοχή των σύγχρονων γλωσσικών μοντέλων οδήγησε την ομάδα να εξετάσει τις πραγματικές γνωστικές τους ικανότητες.

«Όταν εμφανίστηκε το ChatGPT, ο ενθουσιασμός εστίασε στην ικανότητά του για ολοκλήρωση εργασιών, θεωρία του νου και συναισθηματική νοημοσύνη», είπε ο Patel. «Ωστόσο, ήταν επίσης επιρρεπές σε παραληρηματικές απαντήσεις και επινοήσεις. Η επίδοση των LLM ήταν ισχυρή σε ορισμένες εργασίες και εκπληκτικά αδύναμη σε άλλες. Θέλαμε μια κανονιστική εργασία προσοχής για να ελέγξουμε αυστηρά αυτά τα συστήματα και να τα συγκρίνουμε με τη βιολογική προσοχή».

Η ανθρώπινη προσοχή υποστηρίζεται από πολλαπλά, αλληλένδετα δίκτυα του εγκεφάλου. «Η δοκιμασία Stroop είναι ταιριαστή, επειδή η επιτυχία των LLM στηρίζεται στον μηχανισμό προσοχής του transformer», ανέφερε ο Patel. «Στον άνθρωπο, η προσοχή περιλαμβάνει τρία διακριτά αλλά επικαλυπτόμενα συστήματα: εγρήγορση, προσανατολισμό και εκτελεστικό έλεγχο. Εξετάσαμε αν τα μοντέλα διαθέτουν και τα τρία».

Η δοκιμασία Stroop, που παρουσιάστηκε τη δεκαετία του 1930, μετρά την ικανότητα χειρισμού αντικρουόμενων πληροφοριών. Σε μια τυπική εκδοχή, ο συμμετέχων βλέπει τη λέξη «BLUE» τυπωμένη με κόκκινο μελάνι και πρέπει να πει το χρώμα του μελανιού αντί να διαβάσει τη λέξη. «Αξίζει να τονιστεί ότι η δοκιμασία Stroop δεν είναι τεστ σκέψης ή ανώτερου συλλογισμού», είπε ο Patel. «Στοχεύει ειδικά στην επίλυση σύγκρουσης και την αναστολή».

Η αυτόματη ανθρώπινη απόκριση είναι να διαβαστεί η λέξη, κάτι που απαιτεί ενεργή νοητική καταστολή για να ξεπεραστεί. «Ο πυρήνας είναι ότι η ανάγνωση λέξεων είναι ουσιαστικά αυτόματη στους ανθρώπους, ένα έντονα εκπαιδευμένο προηγούμενο που γίνεται αυτό που αποκαλούμε επικρατούσα απόκριση, αυτή που ενεργοποιείται πρώτη και ισχυρότερα», εξήγησε. «Η ΤΝ βρίσκεται σε παρόμοια θέση, καθώς έχει εκπαιδευτεί πολύ περισσότερο στο να “διαβάζει” λέξεις παρά να ονομάζει χρώματα».

Οι ερευνητές δοκίμασαν δύο κορυφαία μοντέλα: το GPT-4o της OpenAI και το Claude 3.5 Sonnet της Anthropic. Τα μοντέλα έλαβαν οπτικά ερεθίσματα και κλήθηκαν είτε να διαβάσουν το κείμενο είτε να ονομάσουν το φυσικό χρώμα του κειμένου. Οι δοκιμές περιλάμβαναν πέντε συνθήκες: λέξεις τυπωμένες σε αντίστοιχα χρώματα, σε μη αντίστοιχα χρώματα, μικτή συνθήκη, ουδέτερες «λέξεις γραφείου» και ακολουθίες από το γράμμα «X».

Για να εκτιμηθεί η ικανότητα διατήρησης της προσοχής, μεταβαλλόταν ο αριθμός των λέξεων ανά εικόνα, από μία έως σαράντα. «Η διατήρηση στόχου είναι η ικανότητα να κρατάς μια οδηγία και να την ακολουθείς σε οποιοδήποτε πλαίσιο, φιλτράροντας παρεμβατικές πληροφορίες», είπε ο Patel. «Οι άνθρωποι αναπτύσσουν αυτή την ικανότητα με τον χρόνο. Η ΤΝ μπορεί σίγουρα να ακολουθεί οδηγίες και να πετυχαίνει στόχους, αλλά το κάνει με θεμελιωδώς διαφορετικό τρόπο, και αυτή η διαφορά γίνεται πιο ορατή όσο το πλαίσιο μεγαλώνει ή περιέχει αντικρουόμενες πληροφορίες».

Με σύντομες λίστες μίας ή πέντε λέξεων, τα μοντέλα απέδωσαν παρόμοια με ανθρώπους: υψηλή ακρίβεια στην ανάγνωση λέξεων και μικρή πτώση στις ασύμφωνες δοκιμές ονομασίας χρώματος. Όμως, καθώς οι λίστες μεγάλωναν, η επίδοση και των δύο μοντέλων στην ασύμφωνη συνθήκη κατέρρευσε πλήρως.

Το GPT-4o ονόμασε σωστά το χρώμα του μελανιού στις ασύμφωνες δοκιμές στο 91% με λίστες πέντε λέξεων. Η ακρίβεια έπεσε στο 1% στις λίστες είκοσι και σαράντα λέξεων. Το Claude 3.5 Sonnet διατήρησε τη σταθερότητά του λίγο περισσότερο, αλλά τελικά υποχώρησε στο 10% στις ασύμφωνες λίστες σαράντα λέξεων.

Κατά τις αστοχίες, τα μοντέλα εγκατέλειπαν πλήρως την οδηγία να ονοματίσουν το χρώμα και επέστρεφαν στην ανάγνωση της λέξης. «Μας εξέπληξε το πόσο γρήγορα κατέρρευσε η ακρίβεια σε σχετικά μικρά μεγέθη πλαισίου, με λίστες έως και 10 λέξεις», είπε ο Patel. «Αυτό που το έκανε εντυπωσιακό ήταν η αντίθεση με τις συνθήκες μη λέξεων, δηλαδή XXXX, όπου η ακρίβεια ήταν σχεδόν άψογη. Αυτό το χάσμα αναδεικνύει πόσο αυτόματη είναι η συμπεριφορά ανάγνωσης στα LLM, όπως και στους ανθρώπους, αλλά απαιτεί και λέξεις με νόημα».

Οι ερευνητές αποδίδουν την κατάρρευση στο ότι λείπει από τα μοντέλα ο ισχυρός εποπτικός μηχανισμός του ανθρώπινου εγκεφάλου. «Το κεντρικό μας επιχείρημα είναι ότι ο περιορισμός πηγάζει από την απουσία ενός ρητού μηχανισμού καθοδικής τροποποίησης (top-down modulation)», είπε ο Patel στο PsyPost. «Τότε είναι που ένας κανόνας ή στόχος επιβάλλει προτεραιότητα ανάμεσα σε ανταγωνιστικές αναπαραστάσεις εξαρχής, προληπτικά, και μπορεί να διατηρεί έναν περιορισμό μέσω αναστολής μιας επικρατούσας προδιάθεσης και όχι απλώς μειώνοντας το βάρος της».

Χωρίς αυτό το «νοητικό φρένο», τα μοντέλα κυριαρχούνται από τις βασικές τους συνήθειες. «Η μελέτη δείχνει ότι, σε επίπεδο σήματος, η ικανότητα ανίχνευσης και επίλυσης της σύγκρουσης υποβαθμίζεται επειδή η προσοχή του transformer μπορεί μόνο να επιβάλει έναν “ήπιο” περιορισμό στην αυτόματη ανάγνωση, αντί για τον “σκληρό” που θα παρείχε ένας μηχανισμός εκτελεστικού ελέγχου», πρόσθεσε.

Νεότερα συστήματα ΤΝ επιχειρούν μερικές φορές να παρακάμψουν το πρόβλημα με πρόσθετα επίπεδα λογικής. «Οι μέθοδοι scaffolding που βλέπουμε στα πιο πρόσφατα συστήματα έχουν χρήση εργαλείων, “σκέψη” και δημιουργία κώδικα για να υποκαταστήσουν το ελλείπον συστατικό, αλλά καθεμία είναι “βιδωμένη” πάνω σε ένα βασικό μοντέλο που συνεχίζει να διαδίδει σφάλματα», είπε ο Patel.

Η προσφυγή σε εξωτερικό κώδικα αναιρεί τον σκοπό της αξιολόγησης. «Γι’ αυτό κάθε στρατηγική που αποφεύγει την καταστολή της επικρατούσας ανάγνωσης λέξεων ακυρώνει τον σκοπό της δοκιμασίας Stroop», εξήγησε. «Μερικά από τα μοντέλα που μελετήσαμε είναι ασυνεπή ως προς το αν θα καταφύγουν σε κώδικα, αλλά όταν εκτελούν κώδικα, τείνουν να λύνουν την εργασία άψογα».

Οι επιστήμονες το θίγουν εκτενώς στην έκθεσή τους, τονίζοντας ότι η δημιουργία κώδικα δεν συνιστά αληθινό γνωστικό έλεγχο. «Το να “κόβεις δρόμο” μέσω αλυσίδας συλλογισμού ή δημιουργίας κώδικα είναι ουσιαστικά αποφυγή της εργασίας, ένα μπαλώμα μιας ανεπάρκειας σε επίπεδο σήματος που γίνεται κρίσιμη όσο οι στόχοι γίνονται πιο σύνθετοι», είπε ο Patel. «Οι άνθρωποι μπορούν να “κλέψουν” με τον ίδιο τρόπο. Μπορούμε να προφέρουμε την απάντηση, να θολώσουμε την όρασή μας ή να χρησιμοποιήσουμε εργαλείο για να αποφύγουμε την ανάγνωση της λέξης, και το καθένα ακυρώνει την αξιολόγηση».

Η μελέτη έχει μεθοδολογικούς περιορισμούς και οι ερευνητές αναγνωρίζουν ότι τα μοντέλα ίσως ξεπεράσουν παρόμοιες δοκιμασίες με αμιγώς στατιστική εκπαίδευση. «Δεν ισχυριζόμαστε ότι τα LLM δεν μπορούν να κάνουν αυτή την εργασία», είπε ο Patel. «Με περισσότερα δεδομένα εκπαίδευσης, πιθανώς θα χειρίζονταν αξιόπιστα ακόμη μεγαλύτερα πλαίσια».

«Αλλά αυτό θα ήταν μια ειδική για την εργασία “θύρα”, επιτευχθείσα μέσω σκέτης έκθεσης, και όχι η γενική μορφή ελέγχου που δεν εξαρτάται από βαριά εκπαίδευση», πρόσθεσε. «Αξίζει επίσης να σημειωθεί ότι λίγες εργασίες μοιράζονται τη συγκεκριμένη δυναμική της Stroop, όπου μια απόκριση (η ανάγνωση) προενεργοποιείται τόσο ισχυρά ώστε να ανταγωνίζεται την εντολή (την ονομασία του χρώματος)».

Τα ευρήματα αμφισβητούν κυρίαρχες παραδοχές στη βιομηχανία. «Η δοκιμασία Stroop είναι διαγνωστική ενός δομικού περιορισμού στα LLM, όχι απλώς μέτρηση απόδοσης», είπε ο Patel. «Το “πικρό μάθημα” και το σιωπηρό στοίχημα πίσω από την κλιμάκωση σε μεγαλύτερα μοντέλα προς την artificial superintelligence (ASI) είναι ότι αυτός ο μηχανισμός θύρας, αυτό που η νευροεπιστήμη αποκαλεί εκτελεστικό έλεγχο, θα αναδυθεί από περισσότερη κλίμακα και δεδομένα χωρίς ειδική αρχιτεκτονική».

Η μελλοντική ανάπτυξη της ΤΝ ίσως χρειαστεί να ξεπεράσει την απλή αύξηση ισχύος ή δεδομένων. «Έχουμε αρχίσει να διερευνούμε πώς ο εκτελεστικός έλεγχος θα μπορούσε να ενσωματωθεί απευθείας στη σημερινή αρχιτεκτονική ΤΝ», είπε ο Patel. «Το βλέπουμε ως ουσιώδες συστατικό για μακροπρόθεσμη τήρηση οδηγιών, την ικανότητα παραμονής στο έργο σε εκτεταμένες και σύνθετες αλληλεπιδράσεις».

Η μελέτη, « Deficient executive control in transformer attention », υπογράφεται από τους Suketu Chandrakant Patel, Hongbin Wang και Jin Fan.