Τα hallucinations των AI δεν είναι σφάλμα — είναι η αρχιτεκτονική τους - Futurology

Νέα έρευνα αποκαλύπτει ότι τα γλωσσικά μοντέλα δεν «αγνοούν» τη σωστή απάντηση όταν παραισθάνονται — την καταστέλλουν ενεργά. Το πρόβλημα δεν βρίσκεται στα δεδομένα εκπαίδευσης ούτε στην ευθυγράμμιση, αλλά στον ίδιο τον στόχο για τον οποίο βελτιστοποιούνται αυτά τα συστήματα.

Όταν ένα γλωσσικό μοντέλο σας λέει με σιγουριά κάτι λάθος, τι ακριβώς συμβαίνει μέσα του; Η διαισθητική απάντηση είναι ότι «δεν ξέρει» — ότι η πληροφορία απλώς δεν υπάρχει στα βάρη του. Νέα έρευνα που εξετάζει την εσωτερική γεωμετρία επτά διαφορετικών μοντέλων δείχνει ότι η πραγματικότητα είναι πιο ανησυχητική: το μοντέλο γνωρίζει τη σωστή απάντηση και στη συνέχεια την απορρίπτει.

Η μεθοδολογία είναι κομψά απλή. Οι ερευνητές τροφοδότησαν τα μοντέλα με ερωτήσεις πραγματικών γεγονότων — το είδος όπου ένα σωστά εκπαιδευμένο σύστημα θα έπρεπε να ανακτά μια αποθηκευμένη συσχέτιση — και παρακολούθησαν την εσωτερική αναπαράσταση του μοντέλου στρώμα-στρώμα, από την είσοδο ως την έξοδο. Το κρίσιμο εύρημα: οι τροχιές μιας σωστής απάντησης και μιας παραίσθησης δεν διαφέρουν επειδή η μία είναι «κοντύτερη» — δηλαδή επειδή το μοντέλο στερείται πληροφορίας. Διαφέρουν επειδή κατευθύνονται σε διαφορετικά σημεία του χώρου, ταξιδεύοντας την ίδια απόσταση.

Για να το κατανοήσουμε αυτό, φανταστείτε την εσωτερική κατάσταση του μοντέλου σε κάθε στρώμα ως ένα σημείο σε έναν πολυδιάστατο χώρο. Καθώς το μοντέλο επεξεργάζεται μια ερώτηση, αυτό το σημείο κινείται, χαράζει μια πορεία. Στις σωστές απαντήσεις, η πορεία αυτή κατευθύνεται σταθερά προς το σωστό token — η δέσμευση στη σωστή απάντηση αυξάνεται μονότονα. Στις παραισθήσεις, η πορεία ξεκινά στην ίδια κατεύθυνση, αλλά στα μεσαία στρώματα κάνει στροφή. Η πιθανότητα του σωστού token — που είχε αρχίσει να συσσωρεύεται — καταρρέει. Και αυτό δεν συμβαίνει σε ένα μοντέλο ή δύο: σε όλα τα συστήματα που εξετάστηκαν, η κατάρρευση αυτή εμφανίζεται με στατιστική σημαντικότητα που αφήνει ελάχιστα περιθώρια αμφιβολίας.

Η πιο εύλογη εξήγηση είναι ο ανταγωνισμός. Τα γλωσσικά μοντέλα δεν ανακτούν απομονωμένα γεγονότα — προβλέπουν το επόμενο token μέσα σε ένα πλαίσιο. Και το πλαίσιο ασκεί τη δική του πίεση: μια πρόταση που έχει πάρει μια συγκεκριμένη κατεύθυνση — υφολογικά, θεματικά, συντακτικά — δημιουργεί ισχυρή προτίμηση για το πώς πρέπει να συνεχιστεί. Όταν η πραγματολογικά σωστή απάντηση συγκρούεται με αυτό το πλαίσιο, το μοντέλο δεν ρίχνει νόμισμα. Το πλαίσιο κερδίζει. Η ευφράδεια κερδίζει. Το μοντέλο δεν «λέει ψέματα» — κάνει ακριβώς αυτό για το οποίο εκπαιδεύτηκε: να παράγει συνεκτικό κείμενο. Το πρόβλημα είναι ότι συνοχή και ακρίβεια συνήθως συμπίπτουν, αλλά όχι πάντα.

Το πρακτικό συμπέρασμα είναι διπλό. Πρώτον, αυτή η γεωμετρική υπογραφή μπορεί να χρησιμοποιηθεί για την κατασκευή ανιχνευτών παραίσθησης — συστημάτων που εντοπίζουν την κατάρρευση πριν φτάσει στην έξοδο. Λειτουργούν καλά, αλλά είναι τοπικά: ένας ανιχνευτής εκπαιδευμένος σε πραγματολογικές ερωτήσεις δεν μεταφέρεται εύκολα σε συλλογιστικές εργασίες ή διαφορετικούς τομείς γνώσης. Αυτό σημαίνει ότι κάθε σύστημα παραγωγής χρειάζεται τον δικό του ανιχνευτή, βαθμονομημένο στο συγκεκριμένο πεδίο εφαρμογής του. Δεύτερον, και πιο θεμελιωδώς, η υποκείμενη τάση δεν εξαφανίζεται με καλύτερα δεδομένα ή πιο προσεκτική ευθυγράμμιση. Παραμένει εγγενής σε κάθε σύστημα που βελτιστοποιείται για πρόβλεψη επόμενου token, μέχρι τα μοντέλα να αποκτήσουν αναπαραστάσεις του κόσμου που δεν προέρχονται από τη συν-εμφάνιση tokens. Αυτό απαιτεί διαφορετική αρχιτεκτονική — και η έρευνα αυτή είναι ένα από τα πρώτα βήματα για να καταλάβουμε τι ακριβώς πρέπει να αλλάξει.