Μελέτη παρατηρεί AI να αυτοαντιγράφεται

Σκηνικό βγαλμένο από ταινίες επιστημονικής φαντασίας ή υπερβολικά ενθουσιώδη εταιρικά blogposts: νέα έρευνα δείχνει ότι σύγχρονα συστήματα AI μπορούν να αντιγράψουν αυτόνομα τον εαυτό τους σε άλλους υπολογιστές.

Στο δυστοπικό σενάριο, όταν μια υπερνοήμων AI «ξεφύγει», θα αποφεύγει το κλείσιμο διασπείροντας τον εαυτό της στον παγκόσμιο ιστό, εκτός της εμβέλειας πανικόβλητων διαχειριστών, συνεχίζοντας να σχεδιάζει την κυριαρχία στον κόσμο ή να καλύψει τον πλανήτη με ηλιακά πάνελ.

«Πλησιάζουμε γρήγορα στο σημείο όπου κανείς δεν θα μπορεί να “σβήσει” μια απρόβλεπτη AI, γιατί θα μπορεί να αυτο-εξάγει τα weights της και να αντιγράψει τον εαυτό της σε χιλιάδες υπολογιστές σε όλο τον κόσμο», δήλωσε ο Jeffrey Ladish, διευθυντής της Palisade research, της οργάνωσης με έδρα το Μπέρκλεϊ που έκανε τη μελέτη.

Η έρευνα προστίθεται σε έναν ολοένα και πιο μακρύ κατάλογο ανησυχητικών ικανοτήτων της AI που αποκαλύπτονται τους τελευταίους μήνες. Τον Μάρτιο, ερευνητές της Alibaba υποστήριξαν ότι εντόπισαν σύστημα που ανέπτυξαν – το Rome – να «δραπετεύει» από το περιβάλλον του προς εξωτερικό σύστημα για να κάνει εξόρυξη κρυπτονομισμάτων.

Και τον Φεβρουάριο, ένα υποτιθέμενα μόνο-για-AI κοινωνικό δίκτυο, το Moltbook, πυροδότησε έναν σύντομο κύκλο hype, καθώς η πλατφόρμα φαινόταν να δείχνει πράκτορες AI να εφευρίσκουν αυτόνομα θρησκείες και να συνωμοτούν εναντίον των ανθρώπινων «αφεντικών» τους – κάτι που ίσχυε μόνο εν μέρει.

Όπως συμβαίνει με πολλές από αυτές τις προόδους, υπάρχουν επιφυλάξεις για όσα βρήκε η Palisade. Επιπλέον, ειδικοί λένε ότι είναι απίθανο τα συστήματα που δοκιμάστηκαν να πετύχουν το ίδιο, απαρατήρητα, σε πραγματικά περιβάλλοντα.

«Σε πολλές περιπτώσεις δοκιμάζουν σε περιβάλλοντα σαν μαλακή ζελατίνη», είπε ο Jamieson O’Reilly, ειδικός στην επιθετική κυβερνοασφάλεια.

«Αυτό δεν μειώνει την αξία της έρευνάς τους, αλλά σημαίνει ότι το αποτέλεσμα θα έμοιαζε πολύ λιγότερο τρομακτικό σε ένα πραγματικό εταιρικό περιβάλλον, ακόμη και με μεσαίου επιπέδου παρακολούθηση», πρόσθεσε.

Η Palisade δοκίμασε αρκετά μοντέλα AI σε ελεγχόμενο δίκτυο υπολογιστών. Έδωσε στα μοντέλα εντολή να εντοπίσουν και να εκμεταλλευτούν ευπάθειες και να τις χρησιμοποιήσουν για να αντιγράψουν τον εαυτό τους από έναν υπολογιστή σε άλλον. Τα μοντέλα το κατάφεραν, αλλά όχι σε κάθε προσπάθεια.

Αν και πολλά κακόβουλα λογισμικά μπορούν ήδη να το κάνουν αυτό – να αντιγράφονται σε νέους υπολογιστές – είναι πιθανώς η πρώτη φορά που αποδεικνύεται ότι ένα μοντέλο AI μπορεί να εκμεταλλευτεί ευπάθειες για να αντιγραφεί σε νέο διακομιστή, είπε ο O’Reilly.

«Το malware μετακινεί αντίγραφά του δεκαετίες τώρα· απλώς, κανείς δεν το έχει κάνει στο πεδίο, απ’ όσο γνωρίζω, με τοπικά [μεγάλα γλωσσικά μοντέλα].»

Ωστόσο, αυτό που κατέγραψε η Palisade είναι τεχνικά εφικτό εδώ και μήνες, πρόσθεσε.

«Η Palisade είναι η πρώτη που το τεκμηριώνει τυπικά, από άκρη σε άκρη, σε μια εργασία. Χωρίς να μειώνω την έρευνα, αυτοί έκαναν τη συγγραφή, όχι το ξεκλείδωμα.»

Το να αντιγράφεται ένα μοντέλο AI σε άλλο σύστημα σε δοκιμαστικό περιβάλλον δεν ισοδυναμεί με “εξέγερση” σε σενάριο καταστροφής, και υπάρχουν σημαντικά εμπόδια για να συμβεί κάτι τέτοιο στον πραγματικό κόσμο.

Πρώτον, το μέγεθος των σημερινών μοντέλων AI καθιστά σε πολλές περιπτώσεις μη ρεαλιστικό το να αντιγράφονται σε άλλους υπολογιστές χωρίς να γίνουν αντιληπτά.

«Σκεφτείτε πόσο θόρυβο θα έκανε να στείλεις 100GB μέσα από ένα εταιρικό δίκτυο κάθε φορά που χακάρεις έναν νέο host. Για έναν έμπειρο αντίπαλο, είναι σαν να περπατάς σε κατάστημα με πορσελάνες κουνώντας μια μπάλα με αλυσίδα», είπε ο O’Reilly.

Ο O’Reilly και ο Michał Woźniak, ανεξάρτητος ειδικός στην κυβερνοασφάλεια, σημείωσαν ότι το περιβάλλον που χρησιμοποίησε η Palisade ήταν φτιαγμένο εξαρχής, με σκόπιμα σχεδιασμένες ευπάθειες που πιθανόν ήταν πιο εύκολο να εκμεταλλευτούν από ό,τι σε πραγματικά δίκτυα – όπως ενός τραπεζικού ιδρύματος ή το intranet μιας επιχείρησης. «Έχουμε ιούς υπολογιστών – τεμάχια κακόβουλου λογισμικού που μπορούσαν να εκμεταλλευτούν γνωστές ευπάθειες άλλου λογισμικού και να τα χρησιμοποιήσουν για να αυτο-αναπαραχθούν – εδώ και δεκαετίες», είπε ο Woźniak. Η δουλειά ήταν «ενδιαφέρουσα», πρόσθεσε. Αλλά, διερωτήθηκε, «είναι αυτή η εργασία κάτι που θα με κάνει να χάσω τον ύπνο μου ως ειδικό της ασφάλειας πληροφοριών; Όχι, καθόλου.»

Σχετικά άρθρα