Το Fable 5 της Anthropic επιστρέφει μετά την άρση των ελέγχων εξαγωγών

Μετά από εβδομάδες διαπραγματεύσεων με την κυβέρνηση Τραμπ, το consumer-facing μοντέλο Mythos-class της Anthropic επιστρέφει.

Σε ανάρτηση στο X, η Anthropic ανέφερε ότι σκοπεύει να αρχίσει την αποκατάσταση της πρόσβασης από την Τετάρτη για χρήστες σε όλο τον κόσμο στις πλατφόρμες Claude, ενώ θα επαναφέρει σύντομα την πρόσβαση σε AWS, Google Cloud και Microsoft Foundry, χωρίς να έχει οριστεί ακόμη χρονοδιάγραμμα.

«Λάβαμε ειδοποίηση ότι το Department of Commerce ήρε τους ελέγχους εξαγωγών για τα Claude Fable 5 και Mythos 5.

Θα αρχίσουμε να αποκαθιστούμε την πρόσβαση αύριο και σύντομα θα δώσουμε νεότερη ενημέρωση.

Ευχαριστούμε τους χρήστες μας για την υπομονή τους, καθώς και όλους όσοι συνεργάστηκαν μαζί μας για την επαναδιάθεση των μοντέλων», ανέφερε η εταιρεία.

Την Τρίτη το βράδυ, η εταιρεία δημοσίευσε επίσης ένα blog post με λεπτομέρειες για την πορεία των εξελίξεων, τα αναθεωρημένα μέτρα ασφαλείας της, τις νέες διαδικασίες που επεξεργάζεται για τη βιομηχανία της τεχνητής νοημοσύνης και τους νέους τρόπους με τους οποίους σχεδιάζει να μοιράζεται πληροφορίες με την κυβέρνηση, καθώς και για τις δοκιμές πριν από την κυκλοφορία επερχόμενων μοντέλων.

Στις αρχές Ιουνίου, η Anthropic είχε βάλει στο περιθώριο το Fable 5 — το consumer-facing μοντέλο της που βασίζεται στην ίδια υποκείμενη τεχνολογία με το Mythos 5, αλλά με περισσότερες δικλίδες ασφαλείας — ύστερα από τελεσίγραφο της Παρασκευής το βράδυ από την κυβέρνηση Τραμπ. Με αφορμή ανησυχίες για πιθανά jailbreaks της τεχνολογίας, η κυβέρνηση είχε επιβάλει στην Anthropic οδηγία ελέγχου εξαγωγών, απαγορεύοντας σε οποιονδήποτε ξένο υπήκοο, συμπεριλαμβανομένων μη Αμερικανών μελών των enterprise client εταιρειών αλλά και πολλών εργαζομένων της ίδιας της Anthropic, να χρησιμοποιεί είτε το Mythos 5 είτε το Fable 5, δηλαδή και τα δύο μοντέλα που η Anthropic είχε περάσει την προηγούμενη εβδομάδα να προωθεί.

Για να αντιμετωπίσει το jailbreak που είχε επισημάνει ομάδα ερευνητών της Amazon και που σε μεγάλο βαθμό είχε οδηγήσει στην ενεργοποίηση της οδηγίας ελέγχου εξαγωγών, η Anthropic ανέφερε στο blog post ότι «εκπαίδευσε έναν βελτιωμένο classifier ασφαλείας που στοχεύει και μπλοκάρει» αυτή τη συμπεριφορά. Πρόσθεσε επίσης: «Οι χρήστες θα ειδοποιούνται αν ένα αίτημα προς το Fable 5 μπλοκαριστεί και το αίτημα θα αποστέλλεται αντί αυτού στο Opus 4.8. Ο νέος classifier σημαίνει ότι η συγκεκριμένη τεχνική που περιγράφεται στην έκθεση της Amazon μπλοκάρεται σε πάνω από 99% των περιπτώσεων».

Η κυβέρνηση Τραμπ έδωσε πρόσφατα το πράσινο φως για την επιστροφή του Mythos 5, αλλά μόνο για μια προεγκεκριμένη λίστα οργανισμών. Μη Αμερικανοί υπήκοοι αυτών των οργανισμών, καθώς και ξένοι εργαζόμενοι της ίδιας της Anthropic, μπόρεσαν να ανακτήσουν την πρόσβαση στο μοντέλο. Η απόφαση ήρθε λίγο μετά την παρουσίαση του GPT-5.6 από την OpenAI, το οποίο η κυβέρνηση Τραμπ επέτρεψε να κυκλοφορήσει μόνο με αντίστοιχους όρους: σταδιακή διάθεση, αρχικά μόνο σε προεγκεκριμένη λίστα οργανισμών και κυβερνητικών υπηρεσιών.

Την Τρίτη, η Anthropic έγραψε ότι η εταιρεία θα «συνεχίσει να συντονίζεται με την κυβέρνηση για να επεκτείνει την πρόσβαση στο ευρύτερο σύνολο εγχώριων και διεθνών συνεργατών» για το Mythos 5. Στο blog post της περιέλαβε επίσης ολόκληρη ενότητα για το νέο της σχέδιο στενής συνεργασίας με την κυβέρνηση Τραμπ, υπογραμμίζοντας τις πολλές προσπάθειές της να ξανακερδίσει την εύνοια της κυβέρνησης έπειτα από μήνες δημόσιας αντιπαράθεσης, δικαστικών προσφυγών και προεδρικών παρεμβάσεων.

Η εταιρεία ανέφερε ότι σχεδιάζει να προσφέρει «πρόσβαση και αξιολόγηση από την κυβέρνηση πριν από την κυκλοφορία», ιδιαίτερα για μοντέλα που σχετίζονται με δυνατότητες εθνικής ασφάλειας, ώστε οι κυβερνητικοί εταίροι να μπορούν να κάνουν ανεξάρτητες αξιολογήσεις για τις δυνατότητες των μοντέλων και να δοκιμάζουν τις δικλίδες ασφαλείας πριν από ευρύτερη διάθεση. Η κυβέρνηση θα έχει επίσης πρόσβαση στο τεχνικό προσωπικό της Anthropic κατά τη διάρκεια αυτών των δοκιμών πριν από την κυκλοφορία. Η Anthropic πρόσθεσε ότι σχεδιάζει επίσης να εισαγάγει «γρήγορη ανταλλαγή πληροφοριών» όταν «εντοπίζονται σημαντικά jailbreaks ή μοτίβα κακής χρήσης».

Είπε ακόμη ότι θα συνεργαστεί με την κυβέρνηση και άλλα κορυφαία εργαστήρια AI για τη δημιουργία ενός «κοινού, εθελοντικού προτύπου ασφάλειας και αξιολόγησης για παρόχους frontier μοντέλων». Τέλος, η Anthropic ανέφερε ότι θα «συστήσει ειδικές ομάδες Anthropic για να εργαστούν πάνω σε κοινές κυβερνητικές προτεραιότητες, θα διαθέσει σημαντική υπολογιστική ισχύ για να στηρίξει κυβερνητικές δοκιμές και έρευνα και θα προσφέρει την τεχνογνωσία της στην ασφάλεια και το red-teaming για να συμβάλει στην προώθηση της αιχμής στην αξιολόγηση AI».

Η αρχική οδηγία ελέγχου εξαγωγών από την κυβέρνηση Τραμπ ήρθε σε ακατάλληλη στιγμή για την Anthropic, καθώς η εταιρεία προετοιμάζεται για IPO και βρίσκεται εδώ και μήνες σε αντιπαράθεση με την κυβέρνηση για μια σήμανση κινδύνου στην αλυσίδα εφοδιασμού.

Στο blog post, η εταιρεία επισήμανε ότι «προς το παρόν δεν υπάρχει συναίνεση στον κλάδο της AI» για το πώς πρέπει να καθορίζεται η σοβαρότητα ενός jailbreak, ένα πρόβλημα που «θα γίνει εντονότερο στους επόμενους μήνες, καθώς περισσότερα μοντέλα με ισχυρές δυνατότητες κυβερνοασφάλειας (και άλλες) θα εκπαιδεύονται, θα αξιολογούνται και θα κυκλοφορούν». Γι’ αυτό ανέφερε ότι συνεργάστηκε με την Amazon, τη Microsoft, τη Google και άλλες επιχειρήσεις που συμμετέχουν στο πρόγραμμα Project Glasswing, ώστε να καταρτίσει ένα ευρέως αποδεκτό πλαίσιο αξιολόγησης των AI jailbreaks, με τέσσερις προτεινόμενες κατηγορίες: αύξηση δυνατοτήτων για τον επιτιθέμενο, εύρος της αύξησης δυνατοτήτων για τον επιτιθέμενο, ευκολία ευρύτερης οπλοποίησης και discoverability, δηλαδή το πόσο εύκολο μπορεί να είναι για κάποιον άλλον να το αναπαράγει. Η Anthropic ανέφερε επίσης ότι δημιούργησε νέα ομάδα για «24/7 παρακολούθηση βασικών καναλιών υποβολής jailbreaks» και ότι σύντομα θα παρουσιάσει και πρόγραμμα HackerOne, ώστε ερευνητές να μπορούν να υποβάλλουν πιθανά jailbreaks που έχουν εντοπίσει για το Fable 5.

Η Anthropic συμπεριέλαβε επίσης μια αποποίηση ευθύνης στο blog post της, γράφοντας ότι «είναι πιθανότατα αδύνατο να γίνει οποιοδήποτε μοντέλο AI πλήρως ανθεκτικό, δηλαδή απρόσβλητο, σε jailbreaks. Περιμένουμε ότι θα εντοπιστούν κάποια jailbreaks για τα μοντέλα μας και ότι θα διαφέρουν σε σοβαρότητα: θα υπάρχουν πολλά μικρά jailbreaks, ορισμένα περιορισμένα επιβλαβή, και παρότι δεν έχουν εντοπιστεί καθολικά jailbreaks για το Fable 5 τη στιγμή της συγγραφής, ειδικοί ερευνητές ασφαλείας συνεχίζουν να το red-team».

AI Anthropic AWS Claude export controls Fable 5 Google Cloud jailbreaks Microsoft Foundry Mythos 5 Trump administration

Σχετικά άρθρα