Η Google DeepMind προειδοποιεί για τους κινδύνους όταν εκατομμύρια agents αρχίσουν να αλληλεπιδρούν

Η Google DeepMind χρηματοδοτεί έρευνα για τους πιθανούς κινδύνους από καταστάσεις όπου εκατομμύρια διαφορετικοί AI agents αλληλεπιδρούν μεταξύ τους στο διαδίκτυο, καλώντας περισσότερους επιστήμονες να μελετήσουν τα πολυπρακτορικά συστήματα.

Σύμφωνα με τον Rohin Shah, που διευθύνει την έρευνα ασφάλειας και ευθυγράμμισης AGI της εταιρείας, η μαζική εμφάνιση agents οι οποίοι εκτελούν εργασίες χωρίς ανθρώπινη επίβλεψη και ακολουθούν οδηγίες που τους δίνουν άλλοι agents δημιουργεί μια νέα κατηγορία κινδύνου.

Σε αυτή την κατεύθυνση, η Google DeepMind —που έκανε τα εργαλεία βασισμένα σε agents κεντρικό θέμα του Google I/O τον περασμένο μήνα— συνεργάζεται με άλλους φορείς για να ανακοινώσει χρηματοδότηση 10 εκατ. δολαρίων, προκειμένου ερευνητές να μελετήσουν τη συμπεριφορά πολυπρακτορικών συστημάτων και να προτείνουν τρόπους αποτροπής επισφαλών σεναρίων. Συμμετέχουν η Schmidt Sciences, η φιλανθρωπική οργάνωση των Eric και Wendy Schmidt, η ARIA, ο κυβερνητικός οργανισμός «moonshot» του Ηνωμένου Βασιλείου, το Cooperative AI Foundation, μη κερδοσκοπικό ερευνητικό σχήμα με έδρα το Ηνωμένο Βασίλειο, και το Google.org.

Ρώτησα τον Shah και τον James Fox, που ηγείται του προγράμματος Science of Trustworthy AI στη Schmidt Sciences, τι ελπίζουν να πετύχουν με αυτά τα 10 εκατ. Δεν είναι μικρό ποσό, αλλά υστερεί σε σχέση με τους προϋπολογισμούς που διαχειρίζονται οι ίδιες οι ερευνητικές ομάδες της Google DeepMind.

Στόχος είναι να ενεργοποιηθεί η έρευνα εκτός των τεχνολογικών εταιρειών, λέει ο Shah: «Η δύναμη της ακαδημαϊκής κοινότητας είναι ότι μπορεί να κοιτάξει αρκετά μπροστά στο μέλλον και να κάνει δουλειά που δεν είναι πρώτη προτεραιότητα στα εργαστήρια της βιομηχανίας».

«Το βασικό ζήτημα είναι ότι δεν υπάρχει ουσιαστικά ακόμα πεδίο έρευνας για την ασφάλεια των πολυπρακτορικών συστημάτων», προσθέτει. «Και θα θέλαμε να υπάρξει».

Η ανησυχία είναι ότι όσο αναπτύσσονται και συνεργάζονται όλο και περισσότεροι AI agents, μπορεί να φτάσουμε σε σημείο καμπής όπου σενάρια που μέχρι τώρα ήταν φανταστικά γίνονται πραγματικότητα. «Το βλέπουμε και με την ανθρωπότητα», λέει ο Shah. «Οι θεσμοί μας μπορούν να πετύχουν πράγματα που κανένα άτομο από μόνο του δεν μπορεί».

Ο Shah θεωρεί ότι απομένουν μερικοί ακόμα μήνες μέχρι οι agents να αναπτυχθούν σε τέτοια κλίμακα στην οικονομία ώστε οι κίνδυνοι να γίνουν πραγματικό ζήτημα. Θέλει να προλάβει αυτή τη στιγμή.

Ποιοι είναι ακριβώς οι κίνδυνοι; Οι πιθανότητες που έχουν κατά νου ο Shah και ο Fox καταλήγουν κυρίως σε ενισχυμένες εκδοχές όσων ήδη συμβαίνουν στο διαδίκτυο: απάτες, prompt injections (όταν ένας AI agent τροφοδοτείται με κακόβουλες οδηγίες και μετατρέπεται σε αυτοκαθοδηγούμενο κακόβουλο λογισμικό), και άλλες μορφές κυβερνοεπίθεσης. «Κοιτάμε τι κάνουν σήμερα οι άνθρωποι και ρωτάμε ποια θα ήταν η εκδοχή agent αυτού», λέει ο Shah.

«Έχουμε ένα ψηφιακό κοινό αγαθό που είναι αναπόσπαστο για το πώς λειτουργεί η κοινωνία, και πραγματικά θέλεις να διασφαλίσεις ότι αυτό δεν θα καταλήξει σε απόλυτη αναρχία», λέει ο Fox.

(Ρώτησα τον Shah αν εξετάζουν ακραία σενάρια στη «doomer» πλευρά, όπως εκτεταμένη οικονομική κατάρρευση. «Σίγουρα όχι αν μιλάμε μέχρι το τέλος του έτους», είπε. Αυτό είναι μόλις έξι μήνες μακριά! Γέλασε. «Εντάξει, λίγο αργότερα».)

Και οι δύο εκτιμούν ότι ο μόνος τρόπος να καταλάβουμε τι μπορεί να συμβεί όταν μεγάλοι αριθμοί πολυπρακτορικών συστημάτων αλληλεπιδρούν μεταξύ τους είναι μέσω ρεαλιστικών προσομοιώσεων. Θέλουν οι ερευνητές να «ρίξουν» agents σε sandboxes και να μελετήσουν τη συμπεριφορά τους.

Δεν μπορείς να προβλέψεις τι θα συμβεί μελετώντας μεμονωμένους agents ή και μικρές ομάδες απομονωμένα. Δεν μπορείς να υποθέτεις ότι agents που βασίζονται σε LLMs θα δρουν πάντα ορθολογικά, λέει ο Fox. Η πολυπλοκότητα προκύπτει από τον τεράστιο αριθμό ταυτόχρονων αλληλεπιδράσεων.

Ορισμένοι ερευνητές, ανάμεσά τους και ομάδα της Google DeepMind, έχουν υποστηρίξει ότι η τεχνητή γενική νοημοσύνη (αν είναι καν εφικτή) ίσως προκύψει όχι από ένα ενιαίο υπέρ-έξυπνο μοντέλο αλλά από ένα είδος «κυψέλης» agents, όπου οι ικανότητες του συνόλου ξεπερνούν το άθροισμα των μερών.

Η Google DeepMind δεν είναι η μόνη κορυφαία εταιρεία AI που προειδοποιεί για τους κινδύνους της τεχνολογίας που αναπτύσσει. Πριν από λίγες εβδομάδες, η Anthropic δημοσίευσε κατευθυντήριες γραμμές για την ανάπτυξη AI agents βασισμένες στη λογική της «μηδενικής εμπιστοσύνης» (zero trust) στην κυβερνοασφάλεια, που ξεκινά από την παραδοχή ότι ένα σύστημα είναι ευάλωτο, ένας agent είναι επιτιθέμενος και μια παραβίαση θα συμβεί.

Ο Refael Angel, συνιδρυτής και CTO της Akeyless, εταιρείας κυβερνοασφάλειας με έδρα το Τελ Αβίβ, συμφωνεί ότι είναι κρίσιμο να κατανοηθούν οι νέοι κίνδυνοι που εισάγουν τα συστήματα με agents.

Κάθε προσέγγιση ασφαλείας μέχρι σήμερα υπέθετε ότι το εμπλεκόμενο μηχάνημα ήταν λογισμικό γραμμένο από άνθρωπο, που κάνει σταθερά πράγματα σε σταθερές διαδρομές, λέει ο Angel: «Ένας agent ανατρέπει όλες αυτές τις παραδοχές. Συλλογίζεται, αυτοσχεδιάζει και μπορεί να καταληφθεί από μία και μόνο πρόταση κρυμμένη σε ένα έγγραφο που του ζητήθηκε να διαβάσει».

Ο Angel χαιρετίζει τη νέα χρηματοδότηση. «Κανένα μεμονωμένο εργαστήριο δεν πρέπει να γράψει τα πρότυπα ασφάλειας που όλοι οι άλλοι θα πρέπει να εμπιστευτούν», λέει. Προειδοποιεί όμως ότι οι ερευνητές ασφάλειας μπορεί να παραβλέπουν βαρετά, υπαρκτά προβλήματα υπέρ πιο εξωτικών, υποθετικών.

Κι όμως, σημειώνει ο Fox, κίνδυνοι που ήταν υποθετικοί πριν από λίγα χρόνια είναι τώρα πολύ πραγματικοί: «Το μέλλον ήρθε πιο γρήγορα απ’ όσο ίσως περιμέναμε».

Σχετικά άρθρα