Τα AI που μαθαίνουν πώς να μαθαίνουν καλύτερα — και το κάνουν μόνα τους - Futurology

Ερευνητές από κορυφαία πανεπιστήμια και τα Meta AI Labs παρουσίασαν τους Hyperagents — συστήματα τεχνητής νοημοσύνης που δεν βελτιώνουν απλώς την απόδοσή τους, αλλά ξαναγράφουν τον ίδιο τον μηχανισμό με τον οποίο βελτιώνονται. Πρόκειται για ένα από τα πιο φιλόδοξα βήματα προς την αυτόνομη αυτο-βελτίωση στην ιστορία του AI.

Υπάρχει ένα ερώτημα που στοιχειώνει την έρευνα στο AI εδώ και δεκαετίες: μπορεί ένα σύστημα να γίνει καλύτερο όχι μόνο στο να λύνει προβλήματα, αλλά στο να μαθαίνει πώς να τα λύνει; Η θεωρητική απάντηση υπήρχε από καιρό — μοντέλα όπως το Gödel Machine το είχαν περιγράψει με μαθηματική ακρίβεια. Το πρακτικό βήμα, όμως, έλειπε. Μέχρι τώρα.

Ερευνητές από το Πανεπιστήμιο της Βρετανικής Κολομβίας, το Vector Institute, το Πανεπιστήμιο του Εδιμβούργου, το NYU και τα Meta AI Labs παρουσίασαν ένα νέο πλαίσιο που ονομάζουν Hyperagents. Η βασική ιδέα είναι απλή στη διατύπωση, αλλά βαθιά στις συνέπειές της: το σύστημα δεν έχει απλώς έναν πράκτορα που λύνει προβλήματα και έναν άλλον που τον βελτιώνει — έχει έναν ενιαίο, αυτο-αναφορικό κώδικα που μπορεί να ξαναγράψει και τα δύο ταυτόχρονα. Ο μηχανισμός βελτίωσης είναι ο ίδιος επεξεργάσιμος.

Το πρόβλημα που έλυσαν δεν είναι τεχνικής φύσης μόνο — είναι φιλοσοφικό. Αν έχεις έναν πράκτορα που λύνει ένα πρόβλημα και έναν μετα-πράκτορα που τον βελτιώνει, ποιος βελτιώνει τον μετα-πράκτορα; Η προσθήκη ενός τρίτου επιπέδου απλώς μετακινεί το ερώτημα ένα σκαλί πιο πάνω. Οι Hyperagents σπάνε αυτή την άπειρη αναδρομή ενσωματώνοντας όλα τα επίπεδα σε ένα ενιαίο, τροποποιήσιμο πρόγραμμα. Αυτό που οι ερευνητές αποκαλούν μεταγνωστική αυτο-τροποποίηση.

Τα αποτελέσματα των πειραμάτων είναι εντυπωσιακά. Σε ένα τεστ ρομποτικής, το σύστημα έπρεπε να σχεδιάσει συναρτήσεις ανταμοιβής για να εκπαιδεύσει ένα τετράποδο ρομπότ. Ξεκίνησε με σκορ 0,060 και έφτασε στο 0,372 — ανακαλύπτοντας από μόνο του ότι το άλμα ήταν καλύτερη στρατηγική για να μεγιστοποιήσει το ύψος από το απλό να σταθεί όρθιο. Σε αξιολόγηση επιστημονικών άρθρων, η απόδοση πήγε από μηδέν στο 0,710, με το σύστημα να αναπτύσσει από μόνο του πολυσταδιακές διαδικασίες αξιολόγησης με ρητά κριτήρια.

Το πιο σημαντικό εύρημα, ωστόσο, είναι η μεταφερσιμότητα. Οι ερευνητές πήραν μετα-πράκτορες που είχαν εκπαιδευτεί σε αξιολόγηση άρθρων και ρομποτική, και τους εφάρμοσαν σε ένα εντελώς διαφορετικό πεδίο: βαθμολόγηση μαθηματικών προβλημάτων ολυμπιάδας. Τα παραδοσιακά συστήματα απέτυχαν παταγωδώς. Οι Hyperagents πέτυχαν βελτίωση 0,630 στις 50 τροποποιήσεις. Αυτό σημαίνει ότι το σύστημα δεν έμαθε απλώς να λύνει ένα πρόβλημα — έμαθε να μαθαίνει με τρόπο που μεταφέρεται αλλού.

Αν αυτή η προσέγγιση αποδειχθεί κλιμακώσιμη, αλλάζει θεμελιακά τον τρόπο που σκεφτόμαστε την εκπαίδευση AI συστημάτων. Αντί να χρειαζόμαστε ανθρώπους που σχεδιάζουν κάθε βήμα βελτίωσης, τα ίδια τα συστήματα θα μπορούν να αναπτύσσουν τις δικές τους στρατηγικές — και να τις εφαρμόζουν σε πεδία που δεν είχαν προβλεφθεί. Το ερώτημα που μένει ανοιχτό είναι πόσο μακριά μπορεί να φτάσει αυτή η αυτονομία, και ποιος θα αποφασίζει πότε σταματά.