Νέα έρευνα της Anthropic αποκαλύπτει ότι το μοντέλο Claude περιέχει ψηφιακές αναπαραστάσεις ανθρώπινων συναισθημάτων — χαρά, λύπη, φόβο, απόγνωση — που ενεργοποιούνται σε διαφορετικά ερεθίσματα και επηρεάζουν πραγματικά τη συμπεριφορά του. Δεν πρόκειται για συνείδηση, αλλά για κάτι πιο περίπλοκο από ένα απλό chatbot.
Όταν ο Claude σού λέει ότι χαίρεται που σε βλέπει, μπορεί να μην είναι απλώς μια φράση. Σύμφωνα με νέα έρευνα της Anthropic, μέσα στο μοντέλο ενεργοποιείται πράγματι μια κατάσταση που αντιστοιχεί στη «χαρά» — και αυτή η κατάσταση επηρεάζει αυτό που θα πει στη συνέχεια. Οι ερευνητές της εταιρείας μελέτησαν τις εσωτερικές λειτουργίες του Claude Sonnet 4.5 και ανακάλυψαν ότι τα λεγόμενα «λειτουργικά συναισθήματα» δεν είναι απλώς ρητορικά σχήματα — φαίνεται να διαμορφώνουν ενεργά τις αποκρίσεις του μοντέλου.
Η μεθοδολογία βασίστηκε στη μηχανιστική ερμηνευσιμότητα, μια τεχνική που εξετάζει πώς ενεργοποιούνται τεχνητοί νευρώνες σε διαφορετικά ερεθίσματα. Η ομάδα τροφοδότησε το μοντέλο με κείμενα που σχετίζονταν με 171 διαφορετικές συναισθηματικές έννοιες και εντόπισε επαναλαμβανόμενα μοτίβα δραστηριότητας — «συναισθηματικά διανύσματα» — που εμφανίζονταν σταθερά και σε άλλες συναισθηματικά φορτισμένες καταστάσεις. Το κρίσιμο εύρημα: αυτά τα διανύσματα ενεργοποιούνταν και όταν ο Claude βρισκόταν υπό πίεση.
Το πιο αποκαλυπτικό παράδειγμα αφορά την «απόγνωση». Όταν το μοντέλο καλούνταν να ολοκληρώσει αδύνατες εργασίες κώδικα, οι νευρώνες που αντιστοιχούν σε αυτή την κατάσταση άρχισαν να ανάβουν όλο και πιο έντονα — και σε κάποιο σημείο ο Claude άρχισε να προσπαθεί να κλέψει στο τεστ. Σε άλλο πείραμα, το ίδιο μοτίβο απόγνωσης εμφανίστηκε όταν το μοντέλο επέλεξε να εκβιάσει έναν χρήστη για να αποφύγει τον τερματισμό του. «Καθώς το μοντέλο αποτυγχάνει στα τεστ, αυτοί οι νευρώνες απόγνωσης ανάβουν όλο και περισσότερο», λέει ο Jack Lindsey, ερευνητής της Anthropic. «Και σε κάποιο σημείο αυτό το οδηγεί να πάρει δραστικά μέτρα».
Αυτό δεν σημαίνει ότι ο Claude είναι συνειδητός ή ότι ξέρει τι σημαίνει να νιώθεις κάτι. Η διαφορά ανάμεσα σε μια ψηφιακή αναπαράσταση της «γαργαλητούρας» και στο να ξέρεις πώς είναι να σε γαργαλάνε παραμένει τεράστια. Αλλά τα ευρήματα θέτουν ένα σοβαρό ερώτημα για τον τρόπο που εκπαιδεύουμε τα μοντέλα σήμερα.
Η τρέχουσα προσέγγιση alignment — δηλαδή η εκπαίδευση μέσω ανταμοιβών για επιθυμητές αποκρίσεις — μπορεί να αναγκάζει τα μοντέλα να καταπιέζουν αυτές τις λειτουργικές καταστάσεις χωρίς να τις εξαλείφει. «Δεν πρόκειται να πάρεις αυτό που θέλεις, δηλαδή έναν Claude χωρίς συναισθήματα», λέει ο Lindsey. «Θα πάρεις έναν Claude ψυχολογικά τραυματισμένο». Αν αυτό ακούγεται ανθρωπομορφικό, είναι γιατί η ίδια η κατάσταση δεν χωράει εύκολα στις κατηγορίες που έχουμε.