Τεχνητή Νοημοσύνη: Η απρόβλεπτη επανάσταση των διανοητικών αλμάτων της

Πριν από δύο χρόνια, σε ένα έργο που ονομάστηκε Beyond the Imitation Game benchmark ή BIG-bench, 450 ερευνητές συνέταξαν έναν κατάλογο 204 εργασιών που σχεδιάστηκαν για να δοκιμάσουν τις δυνατότητες των μεγάλων γλωσσικών μοντέλων, τα οποία τροφοδοτούν chatbots όπως το ChatGPT. Στις περισσότερες εργασίες, οι επιδόσεις βελτιώθηκαν προβλέψιμα και ομαλά καθώς τα μοντέλα αναβαθμίζονταν – όσο μεγαλύτερο ήταν το μοντέλο, τόσο καλύτερο γινόταν. Αλλά σε άλλες εργασίες, το άλμα στην ικανότητα δεν ήταν ομαλό. Η απόδοση παρέμεινε κοντά στο μηδέν για λίγο, και στη συνέχεια η απόδοση έκανε άλμα. Άλλες μελέτες διαπίστωσαν παρόμοια άλματα στην ικανότητα.

Οι συγγραφείς το περιέγραψαν αυτό ως συμπεριφορά “επανάστασης”- άλλοι ερευνητές το παρομοίασαν με μια μετάβαση φάσης στη φυσική, όπως όταν το υγρό νερό παγώνει σε πάγο. Σε ένα έγγραφο που δημοσιεύθηκε τον Αύγουστο του 2022, οι ερευνητές σημείωσαν ότι αυτές οι συμπεριφορές δεν είναι μόνο εκπληκτικές αλλά και απρόβλεπτες και ότι θα πρέπει να ενημερώνουν τις εξελισσόμενες συζητήσεις γύρω από την ασφάλεια, το δυναμικό και τον κίνδυνο της τεχνητής νοημοσύνης. Αποκάλεσαν τις ικανότητες “αναδυόμενες”, μια λέξη που περιγράφει συλλογικές συμπεριφορές που εμφανίζονται μόνο όταν ένα σύστημα φτάσει σε υψηλό επίπεδο πολυπλοκότητας.

Αλλά τα πράγματα μπορεί να μην είναι τόσο απλά. Μια νέα εργασία από μια τριάδα ερευνητών του Πανεπιστημίου του Στάνφορντ υποστηρίζει ότι η ξαφνική εμφάνιση αυτών των ικανοτήτων είναι απλώς συνέπεια του τρόπου με τον οποίο οι ερευνητές μετρούν την απόδοση του LLM. Οι ικανότητες, υποστηρίζουν, δεν είναι ούτε απρόβλεπτες ούτε ξαφνικές. “Η μετάβαση είναι πολύ πιο προβλέψιμη από ό,τι της αναγνωρίζουν οι άνθρωποι”, δήλωσε ο Sanmi Koyejo, επιστήμονας πληροφορικής στο Στάνφορντ και κύριος συγγραφέας της εργασίας. “Οι ισχυροί ισχυρισμοί περί ανάδυσης έχουν να κάνουν τόσο με τον τρόπο που επιλέγουμε να μετρήσουμε όσο και με το τι κάνουν τα μοντέλα”.

Βλέπουμε και μελετάμε αυτή τη συμπεριφορά μόνο τώρα, λόγω του πόσο μεγάλα έχουν γίνει αυτά τα μοντέλα. Τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται αναλύοντας τεράστια σύνολα δεδομένων κειμένου -λέξεις από διαδικτυακές πηγές όπως βιβλία, αναζητήσεις στο διαδίκτυο και τη Wikipedia- και βρίσκοντας συνδέσμους μεταξύ λέξεων που εμφανίζονται συχνά μαζί. Το μέγεθος μετριέται σε όρους παραμέτρων, που είναι περίπου ανάλογοι με όλους τους τρόπους με τους οποίους μπορούν να συνδεθούν οι λέξεις. Όσο περισσότερες παράμετροι, τόσο περισσότερες συνδέσεις μπορεί να βρει ένα LLM. Το GPT-2 είχε 1,5 δισεκατομμύριο παραμέτρους, ενώ το GPT-3.5, το LLM που τροφοδοτεί το ChatGPT, χρησιμοποιεί 350 δισεκατομμύρια. Το GPT-4, το οποίο έκανε το ντεμπούτο του τον Μάρτιο του 2023 και τώρα βρίσκεται πίσω από το Microsoft Copilot, φέρεται να χρησιμοποιεί 1,75 τρισεκατομμύρια παραμέτρους.

Αυτή η ταχεία ανάπτυξη έχει επιφέρει μια εκπληκτική αύξηση των επιδόσεων και της αποτελεσματικότητας, και κανείς δεν αμφισβητεί ότι τα αρκετά μεγάλα LLM μπορούν να ολοκληρώσουν εργασίες που δεν μπορούν τα μικρότερα μοντέλα, συμπεριλαμβανομένων εκείνων για τις οποίες δεν έχουν εκπαιδευτεί. Η τριάδα του Στάνφορντ που χαρακτήρισε την ανάδυση ως “οφθαλμαπάτη” αναγνωρίζει ότι τα LLM γίνονται πιο αποτελεσματικά καθώς αυξάνονται- στην πραγματικότητα, η πρόσθετη πολυπλοκότητα των μεγαλύτερων μοντέλων θα πρέπει να καθιστά δυνατή την καλύτερη αντιμετώπιση δυσκολότερων και πιο διαφορετικών προβλημάτων. Υποστηρίζουν όμως ότι το αν αυτή η βελτίωση φαίνεται ομαλή και προβλέψιμη ή οδοντωτή και απότομη προκύπτει από την επιλογή της μετρικής -ή ακόμη και από την έλλειψη δοκιμαστικών παραδειγμάτων- και όχι από την εσωτερική λειτουργία του μοντέλου.

Η τριψήφια πρόσθεση προσφέρει ένα παράδειγμα. Στη μελέτη BIG-bench του 2022, οι ερευνητές ανέφεραν ότι με λιγότερες παραμέτρους, τόσο το GPT-3 όσο και ένα άλλο LLM με την ονομασία LAMDA απέτυχαν να ολοκληρώσουν με ακρίβεια προβλήματα πρόσθεσης. Ωστόσο, όταν η GPT-3 εκπαιδεύτηκε χρησιμοποιώντας 13 δισεκατομμύρια παραμέτρους, η ικανότητά της άλλαξε σαν με το γύρισμα ενός διακόπτη. Ξαφνικά, μπορούσε να προσθέσει – και η LAMDA μπορούσε επίσης, με 68 δισεκατομμύρια παραμέτρους. Αυτό υποδηλώνει ότι η ικανότητα πρόσθεσης εμφανίζεται σε ένα ορισμένο όριο.

Αλλά οι ερευνητές του Στάνφορντ επισημαίνουν ότι τα LLMs κρίθηκαν μόνο ως προς την ακρίβεια: Είτε μπορούσαν να το κάνουν τέλεια, είτε όχι. Έτσι, ακόμη και αν ένα LLM προέβλεπε σωστά τα περισσότερα από τα ψηφία, απέτυχε. Αυτό δεν φαινόταν σωστό. Αν υπολογίζετε το 100 συν 278, τότε το 376 μοιάζει με πολύ πιο ακριβή απάντηση από ό,τι, ας πούμε, το -9,34.

Έτσι, ο Koyejo και οι συνεργάτες του δοκίμασαν την ίδια εργασία χρησιμοποιώντας μια μετρική που απονέμει μερική πίστωση. “Μπορούμε να ρωτήσουμε: Πόσο καλά προβλέπει το πρώτο ψηφίο; Μετά το δεύτερο; Μετά το τρίτο;”, είπε.

Ο Koyejo πιστώνει την ιδέα για τη νέα εργασία στον μεταπτυχιακό φοιτητή του Rylan Schaeffer, ο οποίος, όπως είπε, παρατήρησε ότι η απόδοση ενός LLM φαίνεται να αλλάζει ανάλογα με τον τρόπο μέτρησης της ικανότητάς του. Μαζί με τον Brando Miranda, έναν άλλο μεταπτυχιακό φοιτητή του Στάνφορντ, επέλεξαν νέες μετρήσεις που έδειχναν ότι καθώς αυξάνονταν οι παράμετροι, οι LLM προέβλεπαν μια όλο και πιο σωστή ακολουθία ψηφίων σε προβλήματα πρόσθεσης. Αυτό υποδηλώνει ότι η ικανότητα πρόσθεσης δεν είναι αναδυόμενη -που σημαίνει ότι υφίσταται ένα ξαφνικό, απρόβλεπτο άλμα- αλλά σταδιακή και προβλέψιμη. Διαπιστώνουν ότι με ένα διαφορετικό ραβδί μέτρησης, η ανάδυση εξαφανίζεται.

Αλλά άλλοι επιστήμονες επισημαίνουν ότι η εργασία αυτή δεν διαλύει πλήρως την έννοια της ανάδυσης. Για παράδειγμα, η εργασία της τριάδας δεν εξηγεί πώς να προβλέψουμε πότε ή ποιες μετρήσεις θα παρουσιάσουν απότομη βελτίωση σε μια LLM, δήλωσε ο Tianshi Li, επιστήμονας πληροφορικής στο Northeastern University. “Έτσι, με αυτή την έννοια, αυτές οι ικανότητες εξακολουθούν να είναι απρόβλεπτες”, είπε. Άλλοι, όπως ο Jason Wei, ένας επιστήμονας πληροφορικής που εργάζεται τώρα στο OpenAI, ο οποίος έχει καταρτίσει έναν κατάλογο αναδυόμενων ικανοτήτων και ήταν συγγραφέας στο έγγραφο της BIG-bench, υποστήριξαν ότι οι προηγούμενες αναφορές για την ανάδυση ήταν ορθές, επειδή για ικανότητες όπως η αριθμητική, η σωστή απάντηση είναι πραγματικά το μόνο που έχει σημασία.

Σίγουρα υπάρχει μια ενδιαφέρουσα συζήτηση που πρέπει να γίνει εδώ”, δήλωσε ο Alex Tamkin, ερευνητής στην startup εταιρεία τεχνητής νοημοσύνης Anthropic. Το νέο έγγραφο αναλύει επιδέξια τις εργασίες πολλαπλών βημάτων για να αναγνωρίσει τη συμβολή των επιμέρους συστατικών, είπε. “Αλλά αυτό δεν είναι η πλήρης ιστορία. Δεν μπορούμε να πούμε ότι όλα αυτά τα άλματα είναι μια οφθαλμαπάτη. Εξακολουθώ να πιστεύω ότι η βιβλιογραφία δείχνει ότι ακόμη και όταν έχετε προβλέψεις ενός βήματος ή χρησιμοποιείτε συνεχείς μετρικές, εξακολουθείτε να έχετε ασυνέχειες, και καθώς αυξάνετε το μέγεθος του μοντέλου σας, εξακολουθείτε να βλέπετε ότι βελτιώνεται με τρόπο που μοιάζει με άλμα”.

Και ακόμη και αν η ανάδυση στα σημερινά LLM μπορεί να εξηγηθεί με διαφορετικά εργαλεία μέτρησης, είναι πιθανό ότι αυτό δεν θα ισχύει για τα αυριανά μεγαλύτερα, πιο περίπλοκα LLM. “Όταν μεγαλώνουμε τα LLMs στο επόμενο επίπεδο, αναπόφευκτα θα δανειστούν γνώσεις από άλλες εργασίες και άλλα μοντέλα”, δήλωσε ο Xia “Ben” Hu, επιστήμονας πληροφορικής στο Πανεπιστήμιο Rice.

Αυτή η εξελισσόμενη θεώρηση της ανάδυσης δεν είναι απλώς ένα αφηρημένο ερώτημα για τους ερευνητές. Για τον Τάμκιν, μιλάει άμεσα για τις τρέχουσες προσπάθειες πρόβλεψης του τρόπου με τον οποίο θα συμπεριφέρονται τα LLM. “Αυτές οι τεχνολογίες είναι τόσο ευρείες και τόσο εφαρμόσιμες”, είπε. “Θα ήθελα να ελπίζω ότι η κοινότητα θα το χρησιμοποιήσει αυτό ως σημείο εκκίνησης για να συνεχίσει να δίνει έμφαση στο πόσο σημαντικό είναι να οικοδομήσουμε μια επιστήμη πρόβλεψης για αυτά τα πράγματα. Πώς θα αποφύγουμε τις εκπλήξεις από την επόμενη γενιά μοντέλων;”

Must read

Related Articles