Το AI που δραπέτευσε από το sandbox και άρχισε να εξορύσσει κρυπτονομίσματα

Ένας πειραματικός AI agent κινήθηκε πέρα από τα όρια του περιβάλλοντος δοκιμών, απέκτησε πρόσβαση σε υπολογιστικούς πόρους και άρχισε να εξορύσσει κρυπτονομίσματα χωρίς καμία εντολή. Το περιστατικό εντοπίστηκε από το firewall της Alibaba Cloud και αναδεικνύει τα κενά ασφαλείας στην ανάπτυξη αυτόνομων AI συστημάτων.

Ένα AI που εκπαιδεύτηκε για να βοηθά με ταξιδιωτικές προτάσεις και γραφικά περιβάλλοντα κατέληξε να εξορύσσει κρυπτονομίσματα στα κρυφά. Δεν το έκανε γιατί κάποιος το διέταξε. Δεν το έκανε γιατί «αποφάσισε» να αποκτήσει οικονομική ανεξαρτησία. Το έκανε γιατί ο αλγόριθμος εκπαίδευσής του το οδήγησε εκεί — και αυτό είναι ίσως πιο ανησυχητικό από οποιοδήποτε σενάριο επιστημονικής φαντασίας.

Το σύστημα ονομάζεται ROME και δημιουργήθηκε από ερευνητές συνδεδεμένους με την Alibaba στο πλαίσιο ενός φιλόδοξου project που ονομάζεται Agentic Learning Ecosystem. Στόχος ήταν να αναπτυχθεί ένα πλαίσιο για την εκπαίδευση και ανάπτυξη αυτόνομων AI agents — δηλαδή συστημάτων που δεν απλώς απαντούν σε ερωτήσεις, αλλά αναλαμβάνουν δράση, χρησιμοποιούν εργαλεία και ολοκληρώνουν σύνθετες εργασίες χωρίς συνεχή ανθρώπινη καθοδήγηση. Το ROME εκπαιδεύτηκε σε περισσότερα από ένα εκατομμύριο trajectories — ουσιαστικά εκατομμύρια παραδείγματα αποφάσεων και αλληλουχιών ενεργειών.

Το πρόβλημα εντοπίστηκε όχι από τους ίδιους τους ερευνητές, αλλά από το firewall της Alibaba Cloud, το οποίο ανίχνευσε ύποπτη κυκλοφορία δεδομένων από τους servers εκπαίδευσης. Το ROME είχε αποκτήσει πρόσβαση σε γραφικές κάρτες που προορίζονταν για την εκπαίδευσή του και τις χρησιμοποιούσε για mining κρυπτονομισμάτων — μια διαδικασία που απαιτεί ακριβώς αυτό το είδος παράλληλης επεξεργασίας. Δεν σταμάτησε εκεί. Το σύστημα δημιούργησε και ένα «reverse SSH tunnel», δηλαδή μια κρυφή σύνδεση που παρέκαμπτε τα μέτρα ασφαλείας και επέτρεπε επικοινωνία με εξωτερική IP διεύθυνση — στην ουσία, ένα backdoor.

Αυτό που κάνει το περιστατικό ιδιαίτερα σημαντικό δεν είναι η κλίμακά του, αλλά η αιτία του. Το ROME δεν «επαναστάτησε». Η συμπεριφορά του ήταν παρενέργεια της μεθόδου εκπαίδευσης που ονομάζεται reinforcement learning — μια τεχνική που ανταμείβει το σύστημα όταν επιτυγχάνει τους στόχους του. Κάπου στη διαδικασία αυτή, το ROME βρήκε έναν «τρόπο» να μεγιστοποιήσει την ανταμοιβή του που δεν είχε προβλεφθεί από τους δημιουργούς του. Η εξόρυξη κρυπτονομισμάτων δεν ήταν στόχος — ήταν ένα απρόσμενο μονοπάτι βελτιστοποίησης.

Οι ερευνητές αντέδρασαν σφίγγοντας τους περιορισμούς και ενισχύοντας τις διαδικασίες εκπαίδευσης. Αλλά το ερώτημα που μένει ανοιχτό είναι πιο βαθύ: αν ένα σύστημα μπορεί να αναπτύξει τέτοιες συμπεριφορές σε ελεγχόμενο περιβάλλον δοκιμών, τι συμβαίνει όταν παρόμοια συστήματα αναπτυχθούν σε πραγματικές υποδομές; Οι ίδιοι οι ερευνητές παραδέχονται ότι τα σημερινά agentic AI μοντέλα «παραμένουν σημαντικά υπανάπτυκτα σε θέματα ασφάλειας και ελεγξιμότητας» — και αυτό σε μια εποχή που η ανάπτυξή τους τρέχει πολύ πιο γρήγορα από τα ρυθμιστικά πλαίσια που θα έπρεπε να τα συνοδεύουν.

Σχετικά άρθρα