Μελέτη του MIT εξηγεί γιατί το scaling στα γλωσσικά μοντέλα λειτουργεί τόσο αξιόπιστα

Ερευνητές του MIT προτείνουν μια μηχανιστική εξήγηση για το γιατί η απόδοση των μεγάλων γλωσσικών μοντέλων κλιμακώνεται τόσο σταθερά με το μέγεθος. Το κλειδί, λένε, είναι ένα φαινόμενο που ονομάζεται υπέρθεση.

Η διαπίστωση ότι τα μεγαλύτερα μοντέλα αποδίδουν καλύτερα είναι από τις πιο σταθερές στην έρευνα για την τεχνητή νοημοσύνη. Αν διπλασιαστούν οι παράμετροι, τα δεδομένα εκπαίδευσης ή ο υπολογιστικός πόρος, το σφάλμα πρόβλεψης πέφτει σύμφωνα με έναν power law. Οι λεγόμενοι Neural Scaling Laws τροφοδοτούν την κούρσα για όλο και μεγαλύτερα συστήματα. Όμως το γιατί υπάρχουν εξαρχής δεν είχε εξηγηθεί πλήρως.

Σε μελέτη που παρουσιάστηκε στο NeurIPS 2025, οι Yizhou Liu, Ziming Liu και Jeff Gore από το MIT αποδίδουν το φαινόμενο σε μια γεωμετρική ιδιότητα των ίδιων των μοντέλων: την υπέρθεση.

Τα γλωσσικά μοντέλα χωρούν περισσότερες έννοιες απ’ όσες «χωρά» ο χώρος τους

Τα γλωσσικά μοντέλα πρέπει να αναπαραστήσουν δεκάδες χιλιάδες tokens και ακόμη περισσότερες αφηρημένες έννοιες σε έναν εσωτερικό χώρο με λίγες χιλιάδες διαστάσεις. Θεωρητικά, ένας τρισδιάστατος χώρος «χωρά» τρεις έννοιες χωρίς παρεμβολές. Τα LLMs παρακάμπτουν αυτόν τον περιορισμό αποθηκεύοντας πολλές έννοιες ταυτόχρονα στις ίδιες διαστάσεις. Οι αντίστοιχοι διανυσματικοί χώροι επικαλύπτονται ελαφρά. Αυτό το «στρίμωγμα» πολλών σημασιών σε περιορισμένο χώρο είναι αυτό που οι ερευνητές ονομάζουν υπέρθεση.

Μέχρι σήμερα, πολλές εξηγήσεις υπέθεταν ότι μόνο οι πιο συχνές έννοιες αναπαρίστανται καθαρά και οι υπόλοιπες χάνονται («ασθενής υπέρθεση»). Η ομάδα του MIT δείχνει, αξιοποιώντας ένα απλοποιημένο μοντέλο της Anthropic, ότι αυτή η εικόνα δεν ταιριάζει με τον τρόπο που λειτουργούν στην πράξη τα LLMs.

Δύο καθεστώτα, δύο εξηγήσεις

Οι ερευνητές κατασκεύασαν ένα έντονα απλοποιημένο μοντέλο με ένα «ρυθμιστικό» εκπαίδευσης που ελέγχει πόσο επικαλύπτονται οι αποθηκευμένες έννοιες. Έτσι μπόρεσαν να συγκρίνουν δύο ακραίες περιπτώσεις.

Στην πρώτη—ασθενής υπέρθεση—το μοντέλο αποθηκεύει καθαρά μόνο τις πιο συχνές έννοιες και αγνοεί τις υπόλοιπες. Το σφάλμα πρόβλεψης οφείλεται κυρίως στις σπάνιες έννοιες που «κόβονται». Το αν η απόδοση ακολουθεί καθαρά έναν power law εξαρτάται από την κατανομή των εννοιών στα δεδομένα εκπαίδευσης. Μόνο όταν αυτή η κατανομή ακολουθεί και η ίδια power law, τότε ακολουθεί και το σφάλμα. Οι συγγραφείς το συνοψίζουν ως «power law in, power law out».

Στη δεύτερη—ισχυρή υπέρθεση—το μοντέλο αποθηκεύει όλες τις έννοιες ταυτόχρονα, επιτρέποντας μικρές επικαλύψεις στα διανύσματα. Το σφάλμα δεν προκύπτει από χαμένες έννοιες, αλλά από τον θόρυβο των επικαλύψεων. Εκεί εμφανίζεται ένα σταθερό μοτίβο: ο διπλασιασμός του πλάτους του μοντέλου περίπου μισεί το σφάλμα, όπως προβλέπει μια απλή γεωμετρική σχέση (1/m, όπου m το πλάτος). Η κατανομή των εννοιών στα δεδομένα παύει να έχει μεγάλη σημασία.

Τα πραγματικά μοντέλα επιβεβαιώνουν τη θεωρία

Για να δουν ποιο καθεστώς ισχύει στα πραγματικά συστήματα, η ομάδα εξέτασε τα στρώματα εξόδου ανοιχτών μοντέλων: OPT, GPT-2, Qwen2.5 και Pythia, από περίπου 100 εκατ. έως 70 δισ. παραμέτρους. Το αποτέλεσμα είναι καθαρό: όλα τα tokens αναπαρίστανται στο μοντέλο, τα διανύσματά τους επικαλύπτονται και η ισχύς αυτών των επικαλύψεων μειώνεται ακριβώς με τον λόγο 1/m που προβλέπεται. Τα γλωσσικά μοντέλα λειτουργούν στο καθεστώς της ισχυρής υπέρθεσης.

Ο μετρημένος εκθέτης κλιμάκωσης συμφωνεί επίσης, φτάνοντας το 0,91, κοντά στη θεωρητική τιμή 1. Τα δεδομένα του Chinchilla της Deepmind δίνουν σχεδόν ταυτόσημη τιμή 0,88. Σύμφωνα με τους ερευνητές, οι νόμοι κλιμάκωσης προκύπτουν απευθείας από τον τρόπο με τον οποίο τα γλωσσικά μοντέλα οργανώνουν γεωμετρικά τη σημασία στις αναπαραστάσεις τους.

Πρακτικές συνέπειες για scaling και αρχιτεκτονική

Η εργασία δίνει συγκεκριμένες απαντήσεις σε δύο ανοικτά ερωτήματα στην έρευνα της ΤΝ. Πρώτον: σταματά κάποτε να «δουλεύει» το scaling; Σύμφωνα με τους ερευνητές, ναι, όταν το πλάτος του μοντέλου φτάσει το μέγεθος του λεξιλογίου. Τότε υπάρχει αρκετός χώρος για να αναπαρασταθεί κάθε token χωρίς επικάλυψη και το σφάλμα από τις «στενές» αναπαραστάσεις μηδενίζεται. Εκεί καταρρέει ο power law.

Δεύτερον: μπορούν οι νόμοι κλιμάκωσης να «επιταχυνθούν», ώστε κάθε πρόσθετη παράμετρος να αποδίδει περισσότερη βελτίωση; Για τη φυσική γλώσσα, μάλλον όχι· οι κατανομές συχνοτήτων λέξεων είναι σχετικά «επίπεδες». Αλλά σε εξειδικευμένες εφαρμογές όπου οι σχετικές έννοιες κατανέμονται πολύ άνισα, μπορεί να είναι εφικτές πιο απότομες κλίσεις κλιμάκωσης.

Υπάρχουν και συνέπειες για τον σχεδιασμό αρχιτεκτονικών: μοντέλα που ενθαρρύνουν ενεργά την υπέρθεση θα πρέπει να αποδίδουν καλύτερα στο ίδιο μέγεθος. Ένα παράδειγμα είναι το nGPT της Nvidia, που αναγκάζει τα εσωτερικά διανύσματα σε μοναδιαία σφαίρα, «πακετάροντάς» τα πυκνότερα.

Υπάρχει όμως ένα τίμημα: όσο περισσότερο επικαλύπτονται οι έννοιες, τόσο δυσκολεύει ο εντοπισμός του τι ακριβώς συμβαίνει μέσα στο μοντέλο. Αυτό αποτελεί πραγματικό πρόβλημα για τη μηχανιστική ερμηνευσιμότητα και, κατ’ επέκταση, για την έρευνα ασφάλειας ΤΝ.

AI News Without the Hype – Curated by Humans

AI news without the hype Curated by humans.

Anthropic Chinchilla DeepMind GPT-2 LLMs MIT NeurIPS 2025 nGPT Nvidia OPT power law Pythia Qwen2.5 scaling laws γλωσσικά μοντέλα μηχανιστική ερμηνεία πλάτος μοντέλου υπέρθεση

Σχετικά άρθρα