Rohin Shah and Four Flynn
Πώς θωρακίζουμε τα εσωτερικά συστήματα απέναντι σε ολοένα ικανότερη και ατελώς ευθυγραμμισμένη AI
Οι AI agents αλλάζουν τον τρόπο που χρησιμοποιούμε την τεχνολογία. Εκτελούν αυτόνομα σύνθετες εργασίες — από την κυβερνοάμυνα μέχρι την επιστημονική έρευνα και την ανάπτυξη προϊόντων — και ανοίγουν μια νέα εποχή παραγωγικότητας. Μόνο στις ΗΠΑ, οι AI agents θα μπορούσαν να δημιουργήσουν οικονομική αξία 2,9 τρισ. δολάρια μέχρι το 2030.
Καθώς οι δυνατότητές τους αυξάνονται, απαιτούνται και πιο εξελιγμένα μέτρα προστασίας. Γι’ αυτό αναπτύξαμε το AI Control Roadmap: ένα πλαίσιο για τη δημιουργία και διαχείριση των προηγμένων AI που χρησιμοποιούμε εντός της Google. Η προσέγγιση «defense-in-depth» που ακολουθούμε υπερβαίνει τη συμβατική ευθυγράμμιση μοντέλων και προσθέτει ένα κρίσιμο επίπεδο ασφάλειας σε επίπεδο συστήματος, που παρέχει εγγυήσεις ακόμη κι αν η ευθυγράμμιση δεν είναι τέλεια.
Τι είναι το AI Control
Η ασφάλεια ξεκινά από γερά θεμέλια, με παραδοσιακά μέτρα όπως sandboxing, endpoint security και ανθεκτικότητα σε prompt injection. Πάνω σε αυτά, το AI Control Roadmap χρησιμοποιεί την ευθυγράμμιση μοντέλων — δηλαδή την εκπαίδευση της AI ώστε να είναι εγγενώς ασφαλής και χρήσιμη — ως κύρια άμυνα. Προσθέτει όμως και ένα επιπλέον επίπεδο: αντιμετωπίζουμε τους εσωτερικούς agents ως δυνητικά μη ευθυγραμμισμένους, ώστε να έχουμε εγγυήσεις ακόμη κι όταν η ευθυγράμμιση είναι ατελής.
Σκεφτείτε έναν εκπαιδευτή οδήγησης με διπλά πεντάλ. Εμπιστεύεται τον μαθητευόμενο, αλλά είναι έτοιμος να πάρει το τιμόνι ή να πατήσει φρένο αν κάτι πάει στραβά. Αντίστοιχα, το σύστημα ελέγχου μας δίνει στους agents δικαιώματα ανάλογα με την επιβεβαιωμένη συμπεριφορά τους, χτίζοντας εμπιστοσύνη με ελεγχόμενη, σταδιακή πρόσβαση.
Το σχέδιό μας βασίζεται σε μια απλή, αλλά προσεκτική παραδοχή: τι γίνεται αν ένας ιδιαίτερα ικανός agent δεν είναι ευθυγραμμισμένος με τους στόχους μας και ενεργήσει απρόβλεπτα; Για να το αντιμετωπίσουμε, εστιάζουμε σε τρεις βασικούς άξονες.
Πρώτον, σύμφωνα με τις βέλτιστες πρακτικές στην κυβερνοασφάλεια, αναπτύξαμε ένα νέο πλαίσιο threat modeling για την AI. Το roadmap αντιμετωπίζει τους μη έμπιστους agents ως ενδεχόμενες «εσωτερικές απειλές» — όπως θα αντιμετώπιζε μια εταιρεία έναν πιθανό απείθαρχο υπάλληλο που ήδη έχει φυσική πρόσβαση. Βασιζόμενοι στο πρότυπο MITRE ATT&CK, μια παγκόσμια προσβάσιμη βάση γνώσης τακτικών και τεχνικών αντιπάλων από πραγματικές παρατηρήσεις, αποσυνθέτουμε πιθανές επιθέσεις σε επιμέρους τακτικές και τεχνικές. Έτσι παρακολουθούμε μεθοδικά τους κινδύνους, εντοπίζουμε κακή συμπεριφορά προτού προκαλέσει ζημιά και εκτελούμε με ασφάλεια ασκήσεις για να ελέγξουμε τις άμυνές μας.
Δεύτερον, καταρτίζουμε σχέδιο για την εφαρμογή μέτρων ελέγχου AI που μετριάζουν αυτούς τους κινδύνους.
Τρίτον, για να διασφαλίσουμε ότι τα συστήματα λειτουργούν, μετράμε συνεχώς την απόδοση σε τρεις κρίσιμους δείκτες: coverage (το ποσοστό της κίνησης που παρακολουθείται), recall (το ποσοστό των μη ευθυγραμμισμένων συμπεριφορών που εντοπίζονται) και χρόνο απόκρισης.
Κλιμάκωση της ασφάλειας όσο «δυναμώνει» η AI
Καθώς τα μοντέλα AI εξελίσσονται, οι άμυνες πρέπει να ενισχύονται ανάλογα. Στο AI Control Roadmap χαρτογραφούμε πρωτόκολλα ασφαλείας σε μετρήσιμα ορόσημα δυνατοτήτων AI σε δύο κρίσιμα μέτωπα:
Το AI Control Roadmap προτείνει μέτρα ασφαλείας ανάλογα με τις δυνατότητες του αναπτυγμένου μοντέλου. Η ικανότητα του μοντέλου να αποφεύγει τον εντοπισμό καθορίζει το επίπεδο Detection (D1–D4), ενώ η ικανότητά του στην εκτέλεση επιθέσεων καθορίζει το επίπεδο Prevention and Response (R1–R3).
Ανάλυση ενός εκατομμυρίου διαδρομών agents για ζωντανή εποπτεία
Για να χτίσουμε αυτά τα συστήματα, χρειαζόμαστε δεδομένα. Η ομάδα μας δημιούργησε ένα εσωτερικό πρωτότυπο ασύγχρονου συστήματος παρακολούθησης που εξετάζει τις διαδρομές coding agents και κλιμακώνει τα ευρήματα για ανθρώπινο έλεγχο. Κάθε περιστατικό που επισημαίνεται ταξινομείται σύμφωνα με τη «ταξινομία απειλών» του roadmap.
Έχουμε ήδη αναλύσει ένα εκατομμύριο εργασίες coding agents, αποκτώντας πολύτιμες γνώσεις για τη βελτίωση των πρωτοκόλλων ασφάλειας και περνώντας από το απλό φιλτράρισμα λέξεων-κλειδιών στον εντοπισμό συμπεριφορικών προτύπων υψηλού σήματος. Για παράδειγμα, αυτή η έρευνα ήταν καθοριστική για την ανάπτυξη live monitor για τον Gemini Spark agent, επιτρέποντάς μας να ανταποκρινόμαστε σε πραγματικό χρόνο σε ζητήματα που προκύπτουν, όπως η ακούσια διαγραφή δεδομένων.
Σημαντικό είναι ότι τα δεδομένα μας δείχνουν πως η πλειονότητα των περιστατικών που επισημαίνονται δεν οφείλονται σε εχθρική πρόθεση· συχνά προκύπτουν από誤ερμηνεία του agent ή υπερβολική ζέση να πετύχει τον στόχο του χρήστη. Η κατανόηση αυτών των αποχρώσεων είναι κρίσιμη για τη βελτίωση των πρωτοκόλλων ασφάλειας.
Η άμυνα του οικοσυστήματος agents είναι συλλογική υπόθεση
Το AI Control Roadmap είναι ένα ζωτικό στοιχείο της πολυεπίπεδης προσέγγισής μας στην ασφάλεια των agents. Ενσωματώνοντας αυτά τα πρωτόκολλα στη συνολική μας υποδομή, κλιμακώνουμε την εσωτερική ασφάλεια ώστε να διαχειριζόμαστε με ασφάλεια τα πιο προηγμένα μοντέλα μας.
Παράλληλα, αυτή η πολυεπίπεδη προσέγγιση πρέπει να είναι κοινή προτεραιότητα για τη βιομηχανία, τους υπεύθυνους χάραξης πολιτικής και την ακαδημαϊκή κοινότητα. Με ευθυγράμμιση γύρω από βέλτιστες πρακτικές και πρότυπα, μπορούμε να ενισχύσουμε τους cyber defenders και να οικοδομήσουμε κοινωνική ανθεκτικότητα. Γι’ αυτό δημοσιεύουμε σήμερα ένα τεχνικό πλαίσιο για policymakers, το «Three Layers of Agent Security». Το κείμενο περιγράφει πώς χρειάζεται να βελτιώσουμε την ασφάλεια στο επίπεδο των μεμονωμένων agents, στα πολυ-agent συστήματα και με την ενδυνάμωση των cyber defenders ώστε να ενισχυθεί η ανθεκτικότητα σε όλο το οικοσύστημα.
Στόχος μας είναι να βασιστούμε σε αυτά τα πλαίσια, ώστε να αναπτύσσουμε με αυτοπεποίθηση ικανούς AI agents σήμερα, ενώ συνεχίζουμε να χτίζουμε ένα ασφαλές θεμέλιο για το μέλλον.
Read the full technical report here:
Mary Phuong, Erik Jenner, Laurent Simon, Lewis Ho, Rohin Shah, Sebastian Farquhar, and Scott Coull.
Four Flynn, Anca Dragan, Alan Cooney, Bilal Chughtai, Buck Shlegeris, Cody Wild, David Lindner, Julian Stastny, Kevin Klyman, Li Ding, Myriam Khan, Raluca Ada Popa, Roland Zimmermann, Ryan Greenblatt, Senthooran Rajamanoharan, Victoria Krakovna and Xerxes Dotiwalla.