Η μικρή μνήμη αποτελεί εμπόδιο για τη χρησιμότητα της τεχνητής νοημοσύνης που παράγει κείμενο. Όπως εύστοχα αναφέρεται σε ένα πρόσφατο άρθρο στο The Atlantic, ακόμη και η εξελιγμένη τεχνητή νοημοσύνη παραγωγής κειμένου όπως το ChatGPT έχει μνήμη χρυσόψαρου. Κάθε φορά που το μοντέλο παράγει μια απάντηση, λαμβάνει υπόψη του μόνο μια πολύ περιορισμένη ποσότητα κειμένου – γεγονός που το εμποδίζει, ας πούμε, να συνοψίσει ένα βιβλίο ή να επανεξετάσει ένα σημαντικό έργο κωδικοποίησης.
Αλλά το Anthropic προσπαθεί να το αλλάξει αυτό.
Σήμερα, η ερευνητική startup AI ανακοίνωσε ότι επέκτεινε το παράθυρο πλαισίου για το Claude – τη ναυαρχίδα του μοντέλου AI που παράγει κείμενο, το οποίο βρίσκεται ακόμα σε στάδιο ανάπτυξης – από 9.000 tokens σε 100.000 tokens. Το παράθυρο πλαισίου αναφέρεται στο κείμενο που εξετάζει το μοντέλο πριν δημιουργήσει πρόσθετο κείμενο, ενώ τα tokens αντιπροσωπεύουν το ακατέργαστο κείμενο (π.χ. η λέξη “fantastic” θα χωριζόταν στα tokens “fan”, “tas” και “tic”).
Όπως αναφέρθηκε προηγουμένως, τα μοντέλα με μικρά παράθυρα πλαισίου τείνουν να “ξεχνούν” το περιεχόμενο ακόμη και πολύ πρόσφατων συνομιλιών – με αποτέλεσμα να παρεκκλίνουν από το θέμα. Μετά από μερικές χιλιάδες λέξεις περίπου, ξεχνούν επίσης τις αρχικές τους οδηγίες, αντ’ αυτού προεκτείνοντας τη συμπεριφορά τους από τις τελευταίες πληροφορίες εντός του παραθύρου πλαισίου τους και όχι από το αρχικό αίτημα.
Δεν αποτελεί έκπληξη το γεγονός ότι η εξεύρεση τρόπων επέκτασής τους έχει γίνει ένα από τα κύρια σημεία εστίασης εργαστηρίων τεχνητής νοημοσύνης όπως το OpenAI, το οποίο αφιέρωσε μια ολόκληρη ομάδα στο θέμα. Το GPT-4 του OpenAI κατείχε το προηγούμενο στέμμα όσον αφορά τα μεγέθη των παραθύρων περιβάλλοντος, επεξεργαζόμενο 32.000 tokens στο υψηλότερο σημείο – αλλά το βελτιωμένο API της Claude ξεπερνά αυτό το όριο.
Με μεγαλύτερη “μνήμη”, η Claude θα πρέπει να είναι σε θέση να συνομιλεί σχετικά συνεκτικά για ώρες – ακόμη και για αρκετές ημέρες – σε αντίθεση με τα λεπτά. Και ίσως το πιο σημαντικό, θα πρέπει να είναι λιγότερο πιθανό να ξεφύγει από το θέμα συζήτησης.
Σε μια ανάρτηση στο blog, η Anthropic προβάλλει τα άλλα οφέλη του αυξημένου παραθύρου πλαισίου του Claude, συμπεριλαμβανομένης της ικανότητας του μοντέλου να αφομοιώνει και να αναλύει εκατοντάδες σελίδες υλικού. Πέρα από την ανάγνωση μεγάλων κειμένων, το αναβαθμισμένο Claude μπορεί να βοηθήσει στην ανάκτηση πληροφοριών από πολλαπλά έγγραφα ή ακόμη και από ένα βιβλίο, αναφέρει η Anthropic, απαντώντας σε ερωτήσεις που απαιτούν “σύνθεση της γνώσης” σε πολλά μέρη του κειμένου.
Η Anthropic απαριθμεί μερικές πιθανές περιπτώσεις χρήσης:
Κατανόηση, σύνοψη και επεξήγηση εγγράφων, όπως οικονομικές καταστάσεις ή ερευνητικά έγγραφα
Ανάλυση κινδύνων και ευκαιριών για μια εταιρεία με βάση τις ετήσιες εκθέσεις της
Αξιολόγηση των πλεονεκτημάτων και των μειονεκτημάτων μιας νομοθεσίας
Εντοπισμός κινδύνων, θεμάτων και διαφορετικών μορφών επιχειρημάτων σε νομικά έγγραφα.
Ανάγνωση εκατοντάδων σελίδων τεκμηρίωσης προγραμματιστών και ανάδειξη απαντήσεων σε τεχνικές ερωτήσεις
Γρήγορη δημιουργία πρωτοτύπων με την απόρριψη μιας ολόκληρης βάσης κώδικα στο πλαίσιο και την έξυπνη οικοδόμηση ή τροποποίησή της
“Ο μέσος άνθρωπος μπορεί να διαβάσει 100.000 tokens κειμένου σε περίπου πέντε ώρες και στη συνέχεια μπορεί να χρειαστεί σημαντικά περισσότερο χρόνο για να τα αφομοιώσει, να θυμηθεί και να αναλύσει αυτές τις πληροφορίες”, συνεχίζει η Anthropic. “Ο Claude μπορεί τώρα να το κάνει αυτό σε λιγότερο από ένα λεπτό. Για παράδειγμα, φορτώσαμε ολόκληρο το κείμενο του The Great Gatsby στην Claude … και τροποποιήσαμε μια γραμμή ώστε να λέει ότι ο κ. Carraway ήταν “ένας μηχανικός λογισμικού που εργάζεται σε εργαλεία μηχανικής μάθησης στην Anthropic”. Όταν ζητήσαμε από το μοντέλο να εντοπίσει τι ήταν διαφορετικό, απάντησε με τη σωστή απάντηση σε 22 δευτερόλεπτα”.
Τώρα, τα μεγαλύτερα παράθυρα πλαισίου δεν λύνουν τις άλλες προκλήσεις που σχετίζονται με τη μνήμη γύρω από τα μεγάλα γλωσσικά μοντέλα. Η Claude, όπως και τα περισσότερα μοντέλα της κατηγορίας της, δεν μπορεί να διατηρήσει πληροφορίες από τη μία συνεδρία στην άλλη. Και σε αντίθεση με τον ανθρώπινο εγκέφαλο, αντιμετωπίζει κάθε πληροφορία ως εξίσου σημαντική, γεγονός που την καθιστά όχι ιδιαίτερα αξιόπιστη αφηγήτρια. Ορισμένοι ειδικοί πιστεύουν ότι η επίλυση αυτών των προβλημάτων θα απαιτήσει εντελώς νέες αρχιτεκτονικές μοντέλων.
Προς το παρόν, όμως, το Anthropic φαίνεται να βρίσκεται στην πρώτη γραμμή.