Τεχνητή Νοημοσύνη: Η απρόβλεπτη επανάσταση των γλωσσικών μοντέλων

Πριν από δύο χρόνια, σε ένα έργο που ονομάζεται Beyond the Imitation Game benchmark ή BIG-bench, 450 ερευνητές συνέταξαν έναν κατάλογο 204 εργασιών που σχεδιάστηκαν για να δοκιμάσουν τις δυνατότητες των μεγάλων γλωσσικών μοντέλων, τα οποία τροφοδοτούν chatbots όπως το ChatGPT. Στις περισσότερες εργασίες, οι επιδόσεις βελτιώθηκαν προβλέψιμα και ομαλά καθώς τα μοντέλα κλιμακώνονταν – όσο μεγαλύτερο ήταν το μοντέλο, τόσο καλύτερο γινόταν. Αλλά σε άλλες εργασίες, το άλμα στην ικανότητα δεν ήταν ομαλό. Η απόδοση παρέμεινε κοντά στο μηδέν για λίγο, και στη συνέχεια η απόδοση έκανε άλμα. Άλλες μελέτες διαπίστωσαν παρόμοια άλματα.

Οι συγγραφείς το περιέγραψαν αυτό ως συμπεριφορά “επανάστασης”- άλλοι ερευνητές το παρομοίασαν με μια μετάβαση φάσης στη φυσική, όπως όταν το υγρό νερό παγώνει. Σε ένα έγγραφο που δημοσιεύθηκε τον Αύγουστο του 2022, οι ερευνητές σημείωσαν ότι αυτές οι συμπεριφορές δεν είναι μόνο εκπληκτικές αλλά και απρόβλεπτες και ότι θα πρέπει να αποτελούν μέρος στις εξελισσόμενες συζητήσεις γύρω από την ασφάλεια, το δυναμικό και τον κίνδυνο της τεχνητής νοημοσύνης. Αποκάλεσαν τις ικανότητες “αναδυόμενες”, μια λέξη που περιγράφει συλλογικές συμπεριφορές που εμφανίζονται μόνο όταν ένα σύστημα φτάσει σε υψηλό επίπεδο πολυπλοκότητας.

Αλλά τα πράγματα μπορεί να μην είναι τόσο απλά. Μια νέα εργασία από μια τριάδα ερευνητών του Πανεπιστημίου του Στάνφορντ υποστηρίζει ότι η ξαφνική εμφάνιση αυτών των ικανοτήτων είναι απλώς συνέπεια του τρόπου με τον οποίο οι ερευνητές μετρούν την απόδοση της LLM. Οι ικανότητες, υποστηρίζουν, δεν είναι ούτε απρόβλεπτες ούτε ξαφνικές. “Η μετάβαση είναι πολύ πιο προβλέψιμη από ό,τι της αναγνωρίζουν οι άνθρωποι”, δήλωσε ο Sanmi Koyejo, επιστήμονας πληροφορικής στο Στάνφορντ και κύριος συγγραφέας της εργασίας. “Οι ισχυρισμοί έχουν να κάνουν τόσο με τον τρόπο που επιλέγουμε να μετρήσουμε όσο και με το τι κάνουν τα μοντέλα”.

Μόλις τώρα βλέπουμε και μελετάμε αυτή τη συμπεριφορά λόγω του πόσο μεγάλα έχουν γίνει αυτά τα μοντέλα. Τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται αναλύοντας τεράστια σύνολα δεδομένων κειμένου – λέξεις από διαδικτυακές πηγές, όπως βιβλία, αναζητήσεις στο διαδίκτυο και τη Wikipedia – και βρίσκοντας συνδέσμους μεταξύ λέξεων που εμφανίζονται συχνά μαζί. Το μέγεθος μετριέται σε όρους παραμέτρων, που είναι περίπου ανάλογοι με όλους τους τρόπους με τους οποίους μπορούν να συνδεθούν οι λέξεις.

Όσο περισσότερες παράμετροι, τόσο περισσότερες συνδέσεις μπορεί να βρει ένα LLM. Το GPT-2 είχε 1,5 δισεκατομμύριο παραμέτρους, ενώ το GPT-3.5, το LLM που τροφοδοτεί το ChatGPT, χρησιμοποιεί 350 δισεκατομμύρια. Το GPT-4, το οποίο έκανε το ντεμπούτο του τον Μάρτιο του 2023 και τώρα βρίσκεται πίσω από το Microsoft Copilot, φέρεται να χρησιμοποιεί 1,75 τρισεκατομμύρια παραμέτρους.

Αυτή η ταχεία ανάπτυξη έχει επιφέρει μια εκπληκτική αύξηση της απόδοσης και της αποτελεσματικότητας, και κανείς δεν αμφισβητεί ότι τα αρκετά μεγάλα LLM μπορούν να ολοκληρώσουν εργασίες που δεν μπορούν τα μικρότερα μοντέλα, συμπεριλαμβανομένων εκείνων για τις οποίες δεν έχουν εκπαιδευτεί. Η τριάδα του Στάνφορντ που χαρακτήρισε την ανάδυση ως “οφθαλμαπάτη” αναγνωρίζει ότι τα LLM γίνονται πιο αποτελεσματικά καθώς αυξάνονται- στην πραγματικότητα, η πρόσθετη πολυπλοκότητα των μεγαλύτερων μοντέλων θα πρέπει να καθιστά δυνατή την καλύτερη αντιμετώπιση πιο δύσκολων και διαφορετικών προβλημάτων. Υποστηρίζουν όμως ότι το αν αυτή η βελτίωση φαίνεται ομαλή και προβλέψιμη ή και απότομη προκύπτει από την επιλογή της κλίμακας μέτρησης – ή ακόμη και από την έλλειψη δοκιμαστικών παραδειγμάτων – και όχι από την εσωτερική λειτουργία του μοντέλου.

Στη μελέτη BIG-bench του 2022, οι ερευνητές ανέφεραν ότι με λιγότερες παραμέτρους, τόσο το GPT-3 όσο και ένα άλλο LLM με την ονομασία LAMDA απέτυχαν να ολοκληρώσουν με ακρίβεια προβλήματα πρόσθεσης. Ωστόσο, όταν η GPT-3 εκπαιδεύτηκε χρησιμοποιώντας 13 δισεκατομμύρια παραμέτρους, η ικανότητά της άλλαξε σαν με το γύρισμα ενός διακόπτη. Ξαφνικά, μπορούσε να προσθέσει – και η LAMDA μπορούσε επίσης, με 68 δισεκατομμύρια παραμέτρους. Αυτό υποδηλώνει ότι η ικανότητα πρόσθεσης εμφανίζεται σε ένα ορισμένο όριο.

Αλλά οι ερευνητές του Στάνφορντ επισημαίνουν ότι τα LLMs κρίθηκαν μόνο ως προς την ακρίβεια: Είτε μπορούσαν να το κάνουν τέλεια, είτε όχι. Έτσι, ακόμη και αν ένα LLM προέβλεπε σωστά τα περισσότερα από τα ψηφία, απέτυχε. Αυτό δεν φαινόταν σωστό. Αν υπολογίζετε το 100 συν 278, τότε το 376 μοιάζει με πολύ πιο ακριβή απάντηση από ό,τι, ας πούμε, το -9,34.

Αντ’ αυτού, λοιπόν, ο Koyejo και οι συνεργάτες του δοκίμασαν την ίδια εργασία χρησιμοποιώντας μια μετρική που απονέμει μερική πίστωση. “Μπορούμε να ρωτήσουμε: Πόσο καλά προβλέπει το πρώτο ψηφίο; Μετά το δεύτερο; Μετά το τρίτο;”, είπε.

Ο Koyejo πιστώνει την ιδέα για τη νέα εργασία στον μεταπτυχιακό φοιτητή του Rylan Schaeffer, ο οποίος, όπως είπε, παρατήρησε ότι η απόδοση ενός LLM φαίνεται να αλλάζει ανάλογα με τον τρόπο μέτρησης της ικανότητάς του. Μαζί με τον Brando Miranda, έναν άλλο μεταπτυχιακό φοιτητή του Στάνφορντ, επέλεξαν νέες μετρήσεις που έδειχναν ότι καθώς αυξάνονταν οι παράμετροι, οι LLM προέβλεπαν μια όλο και πιο σωστή ακολουθία ψηφίων σε προβλήματα πρόσθεσης. Αυτό υποδηλώνει ότι η ικανότητα πρόσθεσης δεν είναι αναδυόμενη – που σημαίνει ότι υφίσταται ένα ξαφνικό, απρόβλεπτο άλμα – αλλά σταδιακή και προβλέψιμη. Διαπιστώνουν ότι με ένα διαφορετικό δείκτη μέτρησης, η ανάδυση εξαφανίζεται.

Must read

Related Articles