Έρευνα: 21 LLM βρίσκουν τη διάγνωση, χάνουν τη συνέχεια της σκέψης

Μια σημαντική έρευνα από το Mass General Brigham έφερε στο φως την ικανότητα και τους περιορισμούς των μεγάλων γλωσσικών μοντέλων (LLM) σε πραγματικές κλινικές περιπτώσεις. Τα μοντέλα έδειξαν εξαιρετική απόδοση όταν είχαν όλα τα απαραίτητα δεδομένα για τη διάγνωση – ξεπερνούσαν το 90% ακρίβεια. Ωστόσο, στη διαδικασία που μιμείται την πραγματική κλινική σκέψη, απέτυχαν σημαντικά.

Η ερευνητική ομάδα του MESH Incubator πραγματοποίησε ένα εντυπωσιακό πείραμα: δοκίμασε 21 διαφορετικά LLM (συμπεριλαμβανομένων δημοφιλών εργαλείων όπως ChatGPT και Claude) σε 29 πραγματικά ιατρικά περιστατικά. Τα μοντέλα λάμβαναν σταδιακά τις πληροφορίες – από δημογραφικά στοιχεία μέχρι εργαστηριακά ευρήματα – με αξιολόγηση κάθε βήματος από μελλοντικούς γιατρούς.

«Τα σύγχρονα LLM μοιάζουν έτοιμα, αλλά δεν είναι για χρήση χωρίς επίβλεψη στην κλινική πράξη», τονίζει ο Marc Succi. Η καινοτομία της έρευνας έγκειται στο εργαλείο αξιολόγησης PrIME-LLM, που εξετάζει την απόδοση των μοντέλων σε όλα τα στάδια της διάγνωσης, όχι μόνο το τελικό αποτέλεσμα.

Το παράδοξο είναι εντυπωσιακό: ενώ μπορούσαν να καταλήξουν στη σωστή διάγνωση όταν είχαν πλήρη στοιχεία, δυσκολεύονταν στα πρώτα κρίσιμα βήματα. Όπως εξηγεί ο επικεφαλής Arya Rao, «Μετατρέψαμε τη διαδικασία σε μια σειρά από προκλήσεις, όπως ακριβώς συμβαίνει στην πραγματική ιατρική». Τα μοντέλα βελτιώνονταν σταδιακά όσο πρόσθεταν περισσότερες πληροφορίες, με τις νεότερες εκδόσεις να υπερτερούν των παλαιότερων.

Τα αποτελέσματα είναι διαφωτιστικά: το Gemini 1.5 πέτυχε 64% στο σύνθετο τεστ PrIME-LLM, ενώ οι τελευταίες εκδόσεις GPT-5 και Grok 4 έφτασαν το 78%. Οι ερευνητές προτείνουν τη χρήση του PrIME-LLM ως πρότυπο αξιολόγησης για τα νοσοκομεία, υπογραμμίζοντας πως παρά την πρόοδο, η ανθρώπινη επίβλεψη παραμένει απαραίτητη.

Η μελέτη αυτή αποτελεί συνέχεια προηγούμενης έρευνας για το ChatGPT, μετατοπίζοντας το επίκεντρο από την απλή ακρίβεια στη συνολική κατανόηση της διαγνωστικής διαδικασίας που ακολουθούν – ή δεν ακολουθούν – τα LLM.

Σχετικά άρθρα