Η Google συμπιέζει τη μνήμη των AI μοντέλων κατά έξι φορές χωρίς απώλεια ακρίβειας

Η Google Research παρουσίασε τον TurboQuant, έναν αλγόριθμο συμπίεσης που μειώνει δραστικά τις απαιτήσεις μνήμης των μεγάλων γλωσσικών μοντέλων χωρίς να θυσιάζει την ακρίβειά τους. Σε δοκιμές με κάρτες Nvidia H100, η απόδοση αυξήθηκε έως και οκτώ φορές σε σχέση με τα ασυμπίεστα δεδομένα — ένα αποτέλεσμα που μπορεί να αλλάξει τον τρόπο που αναπτύσσονται τα AI συστήματα σε πραγματικές συνθήκες.

Ένα από τα πιο πρακτικά προβλήματα στην ανάπτυξη μεγάλων γλωσσικών μοντέλων δεν είναι η εκπαίδευσή τους, αλλά η εκτέλεσή τους. Καθώς τα μοντέλα επεξεργάζονται ολοένα και μεγαλύτερα κείμενα, χρειάζονται τεράστιες ποσότητες μνήμης για να αποθηκεύουν ενδιάμεσα δεδομένα — τα λεγόμενα KV caches. Αυτές οι κρυφές μνήμες αποθηκεύουν υπολογισμούς που έχουν ήδη γίνει, ώστε το μοντέλο να μην χρειάζεται να τους επαναλαμβάνει σε κάθε βήμα παραγωγής κειμένου. Το πρόβλημα: όσο μεγαλώνει το “παράθυρο” κειμένου που μπορεί να επεξεργαστεί ένα μοντέλο, τόσο εκτοξεύεται και η κατανάλωση μνήμης.

Η Google Research δημοσίευσε την Τρίτη τον TurboQuant, έναν αλγόριθμο που αντιμετωπίζει ακριβώς αυτό το πρόβλημα. Χωρίς να απαιτεί επανεκπαίδευση του μοντέλου, ο TurboQuant συμπιέζει τα KV caches σε μόλις 3 bits — από τα συνηθισμένα 16 ή 32 — χωρίς καμία μετρήσιμη απώλεια στην ακρίβεια των αποτελεσμάτων. Σε δοκιμές με κάρτες Nvidia H100, η έκδοση 4-bit του αλγορίθμου έδωσε έως οκτώ φορές καλύτερη απόδοση στους υπολογισμούς προσοχής σε σχέση με ασυμπίεστα δεδομένα 32-bit, ενώ η κατανάλωση μνήμης μειώθηκε τουλάχιστον κατά έξι φορές.

Ο αλγόριθμος λειτουργεί σε δύο στάδια. Το πρώτο χρησιμοποιεί μια τεχνική που ονομάζεται PolarQuant: αντί να αποθηκεύει τα δεδομένα σε κανονικές καρτεσιανές συντεταγμένες, τα μετατρέπει σε πολικές — δηλαδή τα εκφράζει ως μέγεθος και γωνία. Αυτή η αναπαράσταση είναι πιο προβλέψιμη και επιτρέπει συμπίεση υψηλής ποιότητας χωρίς τα επιπλέον bits που συνήθως χρειάζονται για να αποθηκευτούν οι σταθερές κανονικοποίησης. Το δεύτερο στάδιο εφαρμόζει ένα επίπεδο διόρθωσης σφάλματος 1-bit μέσω ενός αλγορίθμου που ονομάζεται Quantized Johnson-Lindenstrauss, ο οποίος εξαλείφει συστηματικές αποκλίσεις στους υπολογισμούς με ελάχιστο επιπλέον κόστος.

Τα αποτελέσματα δοκιμάστηκαν σε μια σειρά από αναγνωρισμένα benchmarks μεγάλου πλαισίου — LongBench, Needle In A Haystack, RULER και άλλα — με τα ανοιχτού κώδικα μοντέλα Gemma και Mistral. Σε όλες τις δοκιμές, ο TurboQuant ισοφάρισε ή ξεπέρασε τον ανταγωνιστή αλγόριθμο KIVI, ενώ στις δοκιμές ανάκτησης πληροφορίας πέτυχε τέλεια αποτελέσματα. Ο αλγόριθμος έδειξε επίσης ισχυρή απόδοση σε αναζήτηση διανυσμάτων, ξεπερνώντας καθιερωμένες μεθόδους όπως το Product Quantization παρά το γεγονός ότι εκείνες χρησιμοποιούν μεγαλύτερα λεξιλόγια κωδικοποίησης και βελτιστοποίηση ανά dataset.

Η δουλειά αυτή δεν είναι απλώς ακαδημαϊκή άσκηση. Ο TurboQuant δεν απαιτεί εκπαίδευση, δεν προσθέτει ουσιαστικό κόστος κατά την εκτέλεση και μπορεί να ενσωματωθεί απευθείας σε υπάρχοντα συστήματα inference. Σε μια εποχή που το κόστος εκτέλεσης AI μοντέλων αποτελεί έναν από τους μεγαλύτερους περιορισμούς για την ευρεία υιοθέτησή τους, η δυνατότητα να κάνεις το ίδιο πράγμα με έξι φορές λιγότερη μνήμη είναι κάτι που οι εταιρείες θα προσέξουν. Η εργασία θα παρουσιαστεί στο ICLR 2026 τον επόμενο μήνα.

AI Google LLM μνήμη GPU συμπίεση δεδομένων

Σχετικά άρθρα