Γιατί GPT και Claude απέτυχαν στα τεστ της Bridgewater: το προσαρμοσμένο ανοιχτό μοντέλο κέρδισε στα ιδιωτικά δεδομένα

Η Bridgewater και η Thinking Machines Lab υποστηρίζουν ότι ένα προσαρμοσμένο μοντέλο ανοιχτών βαρών αποδίδει καλύτερα από τα ισχυρότερα εμπορικά μοντέλα στην αξιολόγηση χρηματοοικονομικών εγγράφων, με κλάσμα του κόστους. Τα αποτελέσματα προέρχονται από δική τους εσωτερική αξιολόγηση.

Οι επενδυτές κατακλύζονται καθημερινά από ειδήσεις, αναλύσεις, εταιρικές ανακοινώσεις και emails. Σύμφωνα με έκθεση των AIA Labs της Bridgewater και της Thinking Machines Lab —της startup που ίδρυσε η πρώην CTO της OpenAI, Mira Murati— το διάβασμα δεν είναι η ουσία της δουλειάς. Η ουσία είναι οι συνεχείς, μικρές κρίσεις για το τι πραγματικά έχει σημασία. Αυτό το «triage» θέλησαν να αυτοματοποιήσουν.

Οι ερευνητές όρισαν έξι εργασίες από την καθημερινότητα ενός επενδυτή. Ένα παράδειγμα: αν ένα οικονομικό άρθρο είναι σχετικό για έναν συγκεκριμένο στέλεχος. Ένα άλλο: αν έγγραφο κεντρικής τράπεζας δίνει σήμα για την κατεύθυνση των μελλοντικών επιτοκίων. Για τους επενδυτές αυτές οι κρίσεις είναι εύκολες, αλλά δύσκολα εξηγούν ρητά το σκεπτικό τους. Η έκθεση δίνει ενδεικτικό παράδειγμα: τίτλος για τον ισχυρισμό του Trump σχετικά με τη Γροιλανδία θεωρείται άσχετος, ενώ η απειλή του για νέους δασμούς στην Κίνα είναι άκρως σχετική. Και τα δύο αγγίζουν γεωπολιτική και οικονομία.

Στα τεστ των συγγραφέων, τα «frontier» μοντέλα υστέρησαν. Παραλλαγές των Gemini, Claude και GPT πέτυχαν περίπου 50% ακρίβεια με ένα βασικό prompt. Οδηγίες γραμμένες από ειδικούς και ένα σύστημα τριών κατηγοριών («relevant and interesting», «relevant but uninteresting», «irrelevant») ανέβασαν την ακρίβεια στα μέσα 70s. Ωστόσο, αυτό υπολείπεται του ορίου του 80% που έθεσαν οι ίδιοι για αξιόπιστη χρήση.

Σύμφωνα με την έκθεση, τα νεότερα μοντέλα βελτιώνονται ελάχιστα ανά δολάριο. Το GPT 5.4 κοστίζει 43% περισσότερο από το 5.2, αλλά είναι μόνο οριακά ακριβέστερο.

Η πραγματική αξία βρίσκεται στο μυαλό των επενδυτών

Η λύση ήταν η προσαρμογή (fine-tuning): επανεκπαίδευση ενός μοντέλου ανοιχτών βαρών σε ιδιόκτητα παραδείγματα. Κλειδί ήταν η κρίση των επενδυτών της Bridgewater. Αρχικά, φθηνοί εξωτερικοί ανάδοχοι έκαναν την επισήμανση εγγράφων, όμως πολλές σημάνσεις ήταν λανθασμένες. Για να αποφύγουν να περάσουν όλα από ακριβούς επαγγελματίες, οι ερευνητές εφάρμοσαν ένα τέχνασμα: ένα πρώτο μοντέλο έμαθε από τις ελαττωματικές σημάνσεις και επανεκτίμησε τα ίδια έγγραφα. Όπου το μοντέλο διαφωνούσε με την αρχική σήμανση, υπήρχε υψηλή πιθανότητα λάθους. Μόνο αυτά τα αμφισβητούμενα περιστατικά στάλθηκαν στους επενδυτές για διόρθωση.

Η εκπαίδευση έγινε στην πλατφόρμα Tinker της Thinking Machines Lab, πάνω στο ανοιχτό μοντέλο Qwen3-235B. Στη δική τους αξιολόγηση, το προσαρμοσμένο μοντέλο έφτασε ακρίβεια 84,7%, έναντι 78,2% για το καλύτερο «frontier» μοντέλο που δοκιμάστηκε. Το κόστος λειτουργίας ήταν σχεδόν 14 φορές χαμηλότερο. Δεν πρόκειται για ανεξάρτητη σύγκριση· και οι δύο εταιρείες έχουν σαφές κίνητρο να προωθήσουν το προϊόν τους.

Παραμένει, ωστόσο, ένα εύρημα πέρα από τους αριθμούς. Δείχνει ότι τα μεγάλα εργαστήρια, όπως η OpenAI, δεν έχουν ενσωματώσει όλα τα διαθέσιμα δεδομένα. Υπάρχουν τεράστιες δεξαμενές ιδιωτικών εταιρικών δεδομένων και «άγραφης» ανθρώπινης τεχνογνωσίας που προσφέρουν περιθώρια βελτίωσης — ιδιαίτερα όταν οι εταιρείες κρατούν τα πιο πολύτιμα δεδομένα τους κλειστά. Όποιος τα παραδίδει σε ένα «frontier» εργαστήριο κινδυνεύει να ανταγωνιστεί προϊόν που θα στηριχθεί πάνω τους.

Η προσαρμογή ανοιχτών μοντέλων με εργαλεία όπως το Tinker δίνει μια εναλλακτική. Οι εταιρείες διατηρούν τα weights, τα δεδομένα και, ανάλογα με τη ρύθμιση, και τα ίδια τα GPUs.

Ειδήσεις για την τεχνητή νοημοσύνη χωρίς υπερβολές – επιμελημένες από ανθρώπους.

AIA Labs Bridgewater Claude fine-tuning Gemini GPT GPT 5.2 GPT 5.4 Mira Murati Qwen3-235B Thinking Machines Lab Tinker επενδυτές κεντρικές τράπεζες χρηματοοικονομικά

Σχετικά άρθρα