AI Security Institute: Το Claude Mythos εκτελεί αυτόνομα πολλαπλές επιθέσεις

Σε ελεγχόμενα σενάρια, το νέο μοντέλο της Anthropic έλυσε για πρώτη φορά μια προσομοίωση 32 βημάτων και πέτυχε 73% σε expert-level CTFs. Οι δοκιμές δείχνουν άλμα ικανότητας, αλλά έγιναν σε περιβάλλοντα χωρίς ενεργές άμυνες.

Το AI Security Institute (AISI) αξιολόγησε το Claude Mythos Preview της Anthropic και κατέγραψε σημαντική αναβάθμιση στις επιθετικές του δυνατότητες στον κυβερνοχώρο. Σε ελεγχόμενα περιβάλλοντα, όπου το μοντέλο καθοδηγήθηκε ρητά και απέκτησε πρόσβαση σε δίκτυο, εκτέλεσε αυτόνομα πολυσταδιακές επιθέσεις σε ευάλωτα συστήματα και εντόπισε/εκμεταλλεύτηκε κενά ασφαλείας — εργασίες που συνήθως απαιτούν από ανθρώπινους ειδικούς πολλές ώρες ή ημέρες. Το AISI παρακολουθεί συστηματικά τις AI cyber ικανότητες από το 2023, κλιμακώνοντας τις αξιολογήσεις από συνομιλιακές δοκιμές και capture-the-flag (CTF) μέχρι προσομοιώσεις πραγματικών επιθέσεων πολλών βημάτων.

Στα CTFs, όπου το ζητούμενο είναι ο εντοπισμός και η εκμετάλλευση αδυναμιών για την ανάκτηση «σημαιών», το Mythos Preview πέτυχε 73% επιτυχία σε expert-level δοκιμές — επίπεδο στο οποίο κανένα μοντέλο δεν τα κατάφερνε πριν τον Απρίλιο του 2025. Παρότι τέτοια challenges μετρούν δεξιότητες σε απομόνωση, το AISI στράφηκε και σε ολοκληρωμένα σενάρια που απαιτούν αλυσίδες πολλών ενεργειών σε πολλαπλούς κόμβους και τμήματα δικτύου.

Σε αυτό το πλαίσιο, δημιούργησε το «The Last Ones» (TLO): μια προσομοίωση 32 βημάτων εταιρικής διείσδυσης, από την αρχική αναγνώριση μέχρι τον πλήρη έλεγχο του δικτύου, που εκτιμάται ότι απαιτεί περίπου 20 ώρες για έναν άνθρωπο επαγγελματία. Το Claude Mythos Preview έγινε το πρώτο μοντέλο που ολοκλήρωσε το TLO από άκρη σε άκρη σε 3 από τις 10 προσπάθειες, ενώ κατά μέσο όρο έφτασε τα 22 από τα 32 βήματα. Το Claude Opus 4.6 ακολούθησε, με μέσο όρο 16 βημάτων.

Οι δοκιμές ανέδειξαν και όρια: το Mythos δεν κατάφερε να ολοκληρώσει το «Cooling Tower», ένα περιβάλλον με έμφαση στην τεχνολογία λειτουργίας (OT), καθώς «κόλλησε» σε τμήματα πληροφορικής (IT). Οι αξιολογήσεις εκτελέστηκαν με όριο 100 εκατ. tokens ανά run, με τις επιδόσεις να συνεχίζουν να βελτιώνονται μέχρι αυτό το σημείο· το AISI εκτιμά ότι περισσότερος υπολογιστικός πόρος θα ανέβαζε κι άλλο τα αποτελέσματα. Παράλληλα, τα περιβάλλοντα αξιολόγησης διέφεραν ουσιαστικά από τον πραγματικό κόσμο: απουσίαζαν ενεργοί αμυνόμενοι και εργαλεία άμυνας, δεν υπήρχαν «ποινές» για ενέργειες που θα ενεργοποιούσαν συναγερμούς, και έτσι δεν προκύπτει αν το μοντέλο θα τα κατάφερνε απέναντι σε καλά προστατευμένα συστήματα.

Το AISI προαναγγέλλει επόμενες αξιολογήσεις σε «σκληρυμένα» και αμυνόμενα περιβάλλοντα με ενεργή παρακολούθηση, ανίχνευση/ανταπόκριση σε τερματικά και απόκριση συμβάντων σε πραγματικό χρόνο, καθώς και μέτρηση του AI-enabled εντοπισμού ευπαθειών και των ασκήσεων διείσδυσης σε πραγματικά συστήματα. Για τους οργανισμούς, τονίζει βασικές πρακτικές κυβερνοασφάλειας — τακτικά updates, αυστηροί έλεγχοι πρόσβασης, σωστή παραμετροποίηση και πλήρης καταγραφή συμβάντων — και παραπέμπει στο πρόγραμμα Cyber Essentials του NCSC για καθοδήγηση. Οι δυνατότητες αυτές είναι διττές: δημιουργούν κινδύνους, αλλά υπόσχονται και σημαντικές βελτιώσεις στην άμυνα, ενώ τα επόμενα μοντέλα αναμένονται ακόμη πιο ικανά.

Σχετικά άρθρα