Το DeepMind θέλει να μετρήσει επιτέλους την πρόοδο προς την AGI

Ερευνητές της Google DeepMind πρότειναν ένα νέο πλαίσιο αξιολόγησης που αποσυνθέτει τη γενική νοημοσύνη σε δέκα βασικές ικανότητες. Στόχος είναι να υπάρξει επιτέλους ένας αντικειμενικός τρόπος να μετράμε πόσο κοντά βρίσκονται τα AI συστήματα στη λεγόμενη τεχνητή γενική νοημοσύνη — και να σταματήσει η αοριστολογία που κυριαρχεί στη συζήτηση.

Η τεχνητή γενική νοημοσύνη — AGI στη βιομηχανική ορολογία — είναι ίσως η πιο φορτισμένη έννοια στον χώρο της τεχνολογίας. Αναφέρεται σε ένα υποθετικό AI σύστημα που θα μπορεί να αντιμετωπίζει οποιοδήποτε νοητικό έργο με την ευελιξία και την προσαρμοστικότητα που έχει ένας άνθρωπος. Τα τελευταία χρόνια, καθώς τα μεγάλα γλωσσικά μοντέλα αποδεικνύουν ολοένα και περισσότερες ικανότητες, η συζήτηση για το αν πλησιάζουμε σε αυτό το κατώφλι έχει ενταθεί. Το πρόβλημα: κανείς δεν είχε ορίσει με σαφήνεια τι ακριβώς μετράμε.

Η Google DeepMind επιχειρεί να αλλάξει αυτό. Σε νέα εργασία, ερευνητές της εταιρείας παρουσιάζουν ένα πλαίσιο εμπνευσμένο από την γνωστική επιστήμη, που αναλύει τη γενική νοημοσύνη σε οκτώ βασικές γνωστικές ικανότητες: αντίληψη αισθητηριακών ερεθισμάτων, παραγωγή εξόδων όπως κείμενο ή ομιλία, μάθηση, μνήμη, συλλογισμός, εστίαση προσοχής, μεταγνώση — δηλαδή η ικανότητα να σκέφτεσαι τον τρόπο που σκέφτεσαι — και εκτελεστικές λειτουργίες όπως ο σχεδιασμός και ο έλεγχος παρορμήσεων. Σε αυτές προστίθενται δύο σύνθετες ικανότητες που απαιτούν συνδυασμό των παραπάνω: η επίλυση προβλημάτων και η κοινωνική νόηση, δηλαδή η κατανόηση και η κατάλληλη αντίδραση στο κοινωνικό πλαίσιο.

Αυτό που κάνει το πλαίσιο πρακτικά χρήσιμο είναι ότι δεν μένει στη θεωρία. Οι ερευνητές προτείνουν να υποβάλλονται τα AI συστήματα σε μια σειρά γνωστικών αξιολογήσεων για κάθε μία από αυτές τις ικανότητες, και παράλληλα να συλλέγονται αντίστοιχα δεδομένα από ανθρώπους — ένα αντιπροσωπευτικό δείγμα ενηλίκων με τουλάχιστον απολυτήριο λυκείου, κάτω από ίδιες συνθήκες. Τα αποτελέσματα θα συνθέτουν ένα “γνωστικό προφίλ” για κάθε μοντέλο, αναδεικνύοντας τα δυνατά και αδύνατα σημεία του. Και συγκρίνοντας αυτό το προφίλ με τον ανθρώπινο μέσο όρο, θα είναι δυνατό να εκτιμηθεί πότε ένα σύστημα φτάνει ή ξεπερνά το επίπεδο της ανθρώπινης γενικής νοημοσύνης.

Σημαντική λεπτομέρεια: το πλαίσιο αξιολογεί τι μπορεί να κάνει ένα σύστημα, όχι πώς το κάνει. Αυτό σημαίνει ότι είναι αγνωστικιστικό ως προς την υποκείμενη τεχνολογία — μπορεί να εφαρμοστεί σε οποιοδήποτε μοντέλο, ανεξάρτητα από την αρχιτεκτονική του. Οι ερευνητές παραδέχονται, ωστόσο, ότι για αρκετές από τις ικανότητες που εντόπισαν — όπως η μεταγνώση, η προσοχή και η κοινωνική νόηση — δεν υπάρχουν ακόμα αξιόπιστα εργαλεία μέτρησης. Επιπλέον, πολλά από τα υπάρχοντα benchmarks είναι δημόσια, άρα ενδέχεται να έχουν ήδη συμπεριληφθεί στα δεδομένα εκπαίδευσης των μοντέλων — κάτι που αλλοιώνει τα αποτελέσματα. Για αυτό, η ομάδα συνεργάζεται με ακαδημαϊκούς για την ανάπτυξη νέων, μη δημόσιων αξιολογήσεων.

Το ερώτημα που παραμένει ανοιχτό είναι αν τα δέκα αυτά κριτήρια αποτυπώνουν πραγματικά την ουσία της ανθρώπινης νοημοσύνης — και αν ένα σύστημα που τα «περνάει» όλα θα αποδεικνύεται πράγματι πιο ικανό στον πραγματικό κόσμο από εξειδικευμένα μοντέλα. Αλλά σε μια συζήτηση που μέχρι τώρα κυριαρχούνταν από αοριστολογία και υπερβολές, ένα πλαίσιο βασισμένο σε δεκαετίες γνωστικής έρευνας και με συγκεκριμένη μεθοδολογία αξιολόγησης είναι ήδη σημαντική πρόοδος.

Σχετικά άρθρα