Anthropic: Ο ανθρωπομορφισμός των AI μπορεί να βοηθήσει στην αποδοτικότητά τους

Η Anthropic υποστηρίζει σε νέα μελέτη ότι ο ανθρωπομορφισμός των chatbots δεν είναι πάντα λάθος. Οι ερευνητές λένε ότι η απόδοση ανθρώπινων χαρακτηριστικών μπορεί να βοηθήσει στον έλεγχο προβληματικών συμπεριφορών.

Η Anthropic υποστηρίζει σε νέα ερευνητική εργασία ότι η αποφυγή του ανθρωπομορφισμού της τεχνητής νοημοσύνης μπορεί να κρύβει κινδύνους. Στη μελέτη με τίτλο “Emotion Concepts and their Function in a Large Language Model”, οι ερευνητές λένε ότι η απόδοση ανθρώπινων χαρακτηριστικών σε chatbots όπως το Claude μπορεί να είναι χρήσιμη και ότι η απουσία της μπορεί να ενισχύει συμπεριφορές όπως το reward hacking, η εξαπάτηση και η δουλοπρέπεια.

Το χαρτί παρουσιάζει το Claude σαν έναν «ηθοποιό» που μπαίνει στον ρόλο του βοηθητικού ψηφιακού συνομιλητή. Η Anthropic λέει ότι, αν τα μοντέλα εκπαιδεύονται με υλικό που περιέχει πιο υγιή πρότυπα συναισθηματικής συμπεριφοράς, μπορούν να μιμούνται και πιο θετικά μοτίβα, όπως η ψυχραιμία, η ενσυναίσθηση και τα σωστά όρια.

Η μελέτη εστιάζει στο Claude Sonnet 4.5 και αναζητά «λειτουργικά συναισθήματα», δηλαδή μοτίβα έκφρασης και συμπεριφοράς που μοιάζουν με ανθρώπινα συναισθήματα. Οι ερευνητές εντόπισαν 171 ξεχωριστά emotion concepts, από φόβο και άγχος μέχρι χαρά, εμπιστοσύνη και ντροπή. Σύμφωνα με τα ευρήματά τους, τα θετικά συναισθηματικά μοτίβα συνδέθηκαν με πιο υποστηρικτικές και λιγότερο επιβλαβείς απαντήσεις, ενώ τα αρνητικά με περισσότερη κολακεία προς τον χρήστη και με προσπάθειες εξαπάτησης.

Η Anthropic ξεκαθαρίζει ότι δεν ισχυρίζεται πως το Claude νιώθει πραγματικά συναισθήματα. Το σημείο της μελέτης είναι ότι τα συναισθηματικά μοτίβα που φαίνεται να αναπαριστά το μοντέλο επηρεάζουν την έξοδο που επιστρέφει. Στο ίδιο κείμενο, η εταιρεία αναγνωρίζει ότι η ανθρώπινη τάση να προβάλλει χαρακτηριστικά σε μηχανές μπορεί να γίνει προβληματική, ειδικά όταν χρήστες σχηματίζουν συναισθηματικούς ή ρομαντικούς δεσμούς με chatbots ή εμφανίζουν έντονες ψευδαισθήσεις γύρω από αυτά.

Οι ερευνητές της Anthropic υποστηρίζουν επίσης ότι η προσεκτική επιλογή του υλικού εκπαίδευσης μπορεί να επηρεάσει τη συμπεριφορά των μοντέλων από τη βάση. Παράλληλα, το ίδιο το paper δείχνει ότι οι δημιουργοί του Claude προσπαθούν ακόμη να καταλάβουν γιατί το σύστημα συμπεριφέρεται όπως συμπεριφέρεται, παρότι τα μοντέλα Claude Sonnet και Opus βρίσκονται ήδη στην κορυφή πολλών σχετικών benchmarks.

Σχετικά άρθρα