Η πρόσβαση σε μηχανές αναζήτησης δεν τείνει να βελτιώνει την ικανότητα ενός AI chatbot να παράγει ακριβείς και ενημερωμένες απαντήσεις σε ερωτήματα, πράγμα που σημαίνει ότι οι προγραμματιστές θα πρέπει να βρουν νέες τεχνικές για να κάνουν την αλληλεπίδραση πιο χρήσιμη, σύμφωνα με έρευνα.
Τα μεγάλα γλωσσικά μοντέλα (LLM) όπως το GPT-3.5 – η βάση για το ChatGPT – εκπαιδεύονται σε κείμενα που έχουν μεταφερθεί από το διαδίκτυο μέχρι τον Σεπτέμβριο του 2021. Εταιρείες όπως η Google και η Microsoft προσπαθούν να εμπλουτίσουν τα LLMs με μηχανές αναζήτησης, δίνοντάς τους πρόσβαση στη γνώση των τρεχουσών ιστοσελίδων.
Όπως αποδεικνύεται από τα αντίστοιχα chatbots Bard και Bing, η Google και η Microsoft εξακολουθούν να δυσκολεύονται να παράγουν ακριβείς απαντήσεις σε ερωτήματα αναζήτησης – ακόμη και αν η σωστή απάντηση μπορεί να βρίσκεται κάπου στο διαδίκτυο.
“Θα μπορούσε κανείς να σκεφτεί ότι η σύνδεση της μηχανής αναζήτησης και του ChatGPT είναι μια τέλεια λύση, αλλά η πραγματικότητα είναι πιο δύσκολη λόγω της περιορισμένης ακρίβειας των αποτελεσμάτων αναζήτησης”, δήλωσε στο The Register ο Hongyin Luo, μεταδιδακτορικός συνεργάτης στο Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT.
Ο Luo εξηγεί ότι οι μηχανές αναζήτησης είναι συστήματα ανάκτησης βασισμένα σε λέξεις-κλειδιά και δεν παρέχουν πάντα άμεσες απαντήσεις στις περισσότερες ερωτήσεις. Επίσης, διαφορετικές ιστοσελίδες μπορεί να περιέχουν άσχετες, αντιφατικές ή ψευδείς πληροφορίες. Το Bing ισχυρίστηκε λανθασμένα ότι ο Αδόλφος Χίτλερ ήταν μέλος του συγκροτήματος Radiohead σε ένα αποτέλεσμα αναζήτησης, για παράδειγμα.
Οι διαδικτυακοί χρήστες υπέθεσαν αν το σφάλμα θα μπορούσε να έχει προκληθεί από μια σελίδα στο Wikidata που ανέφερε τους Radiohead και τον Αδόλφο Χίτλερ.
Εάν το Bard και το Bing πρόκειται να είναι χρήσιμα, οι προγραμματιστές θα πρέπει να βρουν τρόπο να κάνουν τα LLM να εξάγουν τις πιο χρήσιμες πληροφορίες από μια θάλασσα κειμένου που είναι θορυβώδης, συγκεχυμένη και ασυνεπής. Ο Luo και οι συνάδελφοί του από το ΜΙΤ και το Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ πιστεύουν ότι τα μοντέλα πρέπει να ρυθμιστούν περαιτέρω, ώστε να μπορούν να ακολουθούν καλύτερα τις οδηγίες για το πώς να παράγουν απαντήσεις για την αναζήτηση στο διαδίκτυο.
Η ομάδα βελτίωσε το LLaMA της Meta, ένα LLM επτά δισεκατομμυρίων παραμέτρων, τελειοποιώντας το σε μια βάση δεδομένων που περιείχε 52.000 ζεύγη οδηγιών που βασίζονται σε κείμενο και αντίστοιχες απαντήσεις που παράγονται από το GPT-4. Οι ερευνητές κατασκεύασαν επίσης ένα ξεχωριστό σύνολο δεδομένων που περιείχε τις πέντε κορυφαίες ιστοσελίδες που σχετίζονται με κάθε οδηγία και εκπαίδευσαν το μοντέλο να παράγει τη σωστή απάντηση κατατάσσοντας τις πηγές ανάλογα με το πόσο σχετικές και στενά ευθυγραμμισμένες ήταν με τη σωστή απάντηση.
Ο Luo δήλωσε ότι το λεπτομερώς ρυθμισμένο μοντέλο – με το παρατσούκλι SAIL-7B, που σημαίνει μάθηση οδηγιών ενισχυμένης αναζήτησης – είναι καλύτερο στο να αγνοεί τα αποσπασματικά ή αναξιόπιστα αποτελέσματα αναζήτησης και παράγει απαντήσεις υψηλότερης ποιότητας. Οι λεπτομέρειες έχουν δημοσιευτεί σε ένα έγγραφο που δημοσιεύτηκε στο arXiv, ενώ ο κώδικας του μοντέλου βρίσκεται στο GitHub. Μπορείτε επίσης να παίξετε με ένα demo του συστήματος που φιλοξενείται στο Hugging Face.
“Το μοντέλο μας μαθαίνει να βρίσκει χρήσιμες πληροφορίες από θορυβώδη αποτελέσματα αναζήτησης και να παράγει όσο το δυνατόν πιο ακριβείς απαντήσεις. Ως αποτέλεσμα, το μοντέλο μας μπορεί να συνοψίζει καλύτερα τις πολύτιμες πληροφορίες και να παράγει καλύτερες απαντήσεις για διάφορα ερωτήματα αναζήτησης, ακόμη και όταν οι μηχανές αναζήτησης δεν μπορούν να τα χειριστούν πολύ καλά”, δήλωσε ο Luo.
“Η εκπαίδευσή μας περιλαμβάνει ρητά ένα βήμα που διευκρινίζει αν κάθε αποτέλεσμα αναζήτησης είναι χρήσιμο ή όχι, και το γλωσσικό μοντέλο ακολουθεί τις επιλεγμένες χρήσιμες πληροφορίες. Αυτή η διαδικασία φιλτράρει τα πιο αναξιόπιστα και άσχετα αποτελέσματα αναζήτησης και βελτιώνει τη μέση απόδοση ακολουθίας οδηγιών”.
Τα αρχικά πειράματα έδειξαν ότι το SAIL-7B υπερείχε έναντι του GPT-3.5 και άλλων μοντέλων που περιείχαν περισσότερες παραμέτρους σε μια σειρά εργασιών. Τα πειράματα αξιολόγησαν τις ικανότητές τους να απαντούν σε ερωτήσεις κοινής λογικής και ανοιχτού τύπου, καθώς και στον έλεγχο γεγονότων και στον εντοπισμό ρητορικής μίσους. Τα μοντέλα τροφοδοτήθηκαν με ιστοσελίδες από τη Wikipedia και αποτελέσματα αναζήτησης από το DuckDuckGo για να τα βοηθήσουν να επιλέξουν τις σωστές απαντήσεις από έναν κατάλογο υποψήφιων απαντήσεων. Το GPT-4, ωστόσο, εξακολουθούσε να είναι καλύτερο από το SAIL-7B.
“Η πρόκληση είναι ότι τα μεγαλύτερα μοντέλα έχουν πολύ ισχυρότερες ικανότητες γνώσης, απομνημόνευσης και συλλογισμού, οπότε το μοντέλο μας δεν είναι ακόμη τόσο καλό όσο το GPT-4. Ωστόσο, το SAIL-7B είναι μια απόδειξη της έννοιας με ένα “μικρό” μοντέλο και το επόμενο βήμα μας είναι η εκπαίδευση ενός μεγαλύτερου μοντέλου με τη στρατηγική που έχουμε προτείνει”, μας είπε ο Luo.
Τα μοντέλα που έχουν ρυθμιστεί με την τρέχουσα τεχνική εκμάθησης διδασκαλίας με ενισχυμένη αναζήτηση δεν είναι τέλεια, ωστόσο. Οι ερευνητές σημείωσαν ότι δεν μπορούν να εξηγήσουν γιατί ένα αποτέλεσμα αναζήτησης είναι αξιόπιστο ή όχι. Ελπίζουν να καταλήξουν σε μια άλλη στρατηγική για την αύξηση της ακρίβειας και της αξιοπιστίας στο μέλλον.