Το ChatGPT, ένα chatbot που αναπτύχθηκε από την OpenAI, μια αμερικανική εταιρεία, μπορεί να δώσει ικανοποιητικές απαντήσεις σε ερωτήσεις σχετικά με τα πάντα, από την πυρηνική μηχανική έως τη στωική φιλοσοφία. Ή τουλάχιστον, μπορεί στα αγγλικά. Η τελευταία έκδοση, ChatGPT-4, σημείωσε 85% σε ένα κοινό τεστ ερωτήσεων και απαντήσεων. Σε άλλες γλώσσες είναι λιγότερο εντυπωσιακή. Για παράδειγμα, κατά τη διεξαγωγή του τεστ στην Telugu, μια ινδική γλώσσα που μιλούν σχεδόν 100 εκατομμύρια άνθρωποι, σημείωσε μόλις 62%.
Η OpenAI δεν έχει αποκαλύψει πολλά για το πώς κατασκευάστηκε το ChatGPT-4. Αλλά μια ματιά στον προκάτοχό του, το ChatGPT-3, είναι ενδεικτική. Τα μεγάλα γλωσσικά μοντέλα (LLM) εκπαιδεύονται σε κείμενο που συλλέγεται από το διαδίκτυο, στο οποίο τα αγγλικά είναι η lingua franca. Περίπου το 93% των δεδομένων εκπαίδευσης του ChatGPT-3 ήταν στα αγγλικά. Στο Common Crawl, ένα μόνο από τα σύνολα δεδομένων στα οποία εκπαιδεύτηκε το μοντέλο, τα αγγλικά αποτελούν το 47% του σώματος δεδομένων, ενώ άλλες (κυρίως συγγενείς) ευρωπαϊκές γλώσσες αποτελούν το 38%. Τα κινέζικα και τα ιαπωνικά μαζί, αντίθετα, αποτελούσαν μόλις το 9%. Το Telugu δεν ήταν καν ένα στρογγυλοποιητικό σφάλμα.
Μια αξιολόγηση από τον Ναθάνιελ Ρόμπινσον, ερευνητή στο Πανεπιστήμιο Johns Hopkins, και τους συναδέλφους του διαπιστώνει ότι δεν πρόκειται για πρόβλημα που περιορίζεται στο ChatGPT. Όλες οι LLM τα πάνε καλύτερα με τις γλώσσες “υψηλού δυναμικού”, για τις οποίες τα δεδομένα εκπαίδευσης είναι άφθονα, παρά με τις γλώσσες “χαμηλού δυναμικού”, για τις οποίες είναι σπάνια. Αυτό είναι ένα πρόβλημα για όσους ελπίζουν να εξάγουν την ΤΝ σε φτωχές χώρες, με την ελπίδα ότι μπορεί να βελτιώσει τα πάντα, από τα σχολεία μέχρι την υγειονομική περίθαλψη. Οι ερευνητές σε όλο τον κόσμο εργάζονται, επομένως, για να κάνουν την τεχνητή νοημοσύνη πιο πολύπλευρη.
Η κυβέρνηση της Ινδίας είναι ιδιαίτερα πρόθυμη. Πολλές από τις δημόσιες υπηρεσίες της είναι ήδη ψηφιοποιημένες και επιθυμεί να τις ενισχύσει με τεχνητή νοημοσύνη. Τον Σεπτέμβριο, για παράδειγμα, εγκαινίασε ένα chatbot για να βοηθήσει τους αγρότες να λάβουν πληροφορίες σχετικά με τις κρατικές παροχές.
Το bot λειτουργεί με τη συγκόλληση δύο ειδών γλωσσικών μοντέλων, λέει ο Shankar Maruwada του EkStep Foundation, ενός μη κερδοσκοπικού οργανισμού που βοήθησε στην κατασκευή του. Οι χρήστες μπορούν να υποβάλλουν ερωτήματα στη μητρική τους γλώσσα. (Μέχρι στιγμής υποστηρίζονται οκτώ- σύντομα θα ακολουθήσουν άλλες πέντε.) Αυτά διαβιβάζονται σε ένα λογισμικό μηχανικής μετάφρασης που αναπτύχθηκε στο IIT Madras, ένα ινδικό ακαδημαϊκό ίδρυμα, το οποίο τα μεταφράζει στα αγγλικά. Η αγγλική έκδοση της ερώτησης τροφοδοτείται στη συνέχεια στο LLM και η απάντησή του μεταφράζεται πίσω στη μητρική γλώσσα του χρήστη.
Το σύστημα φαίνεται να λειτουργεί. Αλλά η μετάφραση των ερωτήσεων στην προτιμώμενη γλώσσα ενός LLM είναι μια μάλλον αδέξια λύση. Εξάλλου, η γλώσσα είναι ένα μέσο για κοσμοθεωρίες και πολιτισμό καθώς και για απλή σημασία, σημειώνει το αφεντικό μιας ινδικής εταιρείας τεχνητής νοημοσύνης. Μια εργασία της Ρεμπέκα Τζόνσον, ερευνήτριας στο Πανεπιστήμιο του Σίδνεϊ, που δημοσιεύθηκε το 2022, διαπίστωσε ότι το ChatGPT-3 έδωσε απαντήσεις σε θέματα όπως ο έλεγχος της οπλοκατοχής και η πολιτική για τους πρόσφυγες που ευθυγραμμίζονταν περισσότερο με τις αξίες που επιδεικνύουν οι Αμερικανοί στην Παγκόσμια Έρευνα Αξιών, ένα παγκόσμιο ερωτηματολόγιο της κοινής γνώμης.
Επομένως, πολλοί ερευνητές προσπαθούν να καταστήσουν τους ίδιους τους LLMs πιο άπταιστους στις λιγότερο διαδεδομένες γλώσσες. Μια προσέγγιση είναι η τροποποίηση του tokeniser, του τμήματος ενός LLM που τεμαχίζει τις λέξεις σε μικρότερα κομμάτια για να τις χειριστεί το υπόλοιπο μοντέλο. Το κείμενο στα Devanagari, μια γραφή που χρησιμοποιείται στα Χίντι, χρειάζεται τρεις έως τέσσερις φορές περισσότερα token, όταν τα tokenisποιούνται με τον τυπικό τρόπο, από ό,τι το ίδιο κείμενο στα αγγλικά. Μια ινδική νεοσύστατη επιχείρηση με την ονομασία Sarvam AI έχει γράψει έναν tokeniser βελτιστοποιημένο για τα Χίντι, ο οποίος μειώνει σημαντικά αυτόν τον αριθμό. Λιγότερα tokens σημαίνουν λιγότερους υπολογισμούς. Η Sarvam υπολογίζει ότι το OpenHathi, ο βελτιστοποιημένος για το Devanagari LLM της, μπορεί να μειώσει το κόστος απάντησης ερωτήσεων κατά περίπου τρία τέταρτα.
Μια άλλη λύση είναι η βελτίωση των συνόλων δεδομένων στα οποία εκπαιδεύονται οι LLM. Συχνά αυτό σημαίνει την ψηφιοποίηση μεγάλου όγκου κειμένων σε χαρτί και στυλό. Τον Νοέμβριο μια ομάδα ερευνητών στο Πανεπιστήμιο Mohamed bin Zayed, στο Άμπου Ντάμπι, κυκλοφόρησε την τελευταία έκδοση ενός αραβόφωνου μοντέλου που ονομάζεται “Jais”. Έχει το ένα έκτο του αριθμού των παραμέτρων (ένα μέτρο του μεγέθους ενός μοντέλου) του ChatGPT-3, αλλά έχει ισάξιες επιδόσεις με αυτό στα αραβικά. Ο Τίμοθι Μπάλντουιν, ενεργός πρύτανης του πανεπιστημίου, σημειώνει ότι, επειδή η ομάδα του μπορούσε να ψηφιοποιήσει μόνο τόσο αραβικό κείμενο, το μοντέλο περιλάμβανε και κάποια αγγλικά. Ορισμένες έννοιες, άλλωστε, είναι παρόμοιες σε όλες τις γλώσσες και μπορούν να διδαχθούν σε οποιαδήποτε γλώσσα. Τα δεδομένα σε μια συγκεκριμένη γλώσσα είναι πιο σημαντικά για τη διδασκαλία στο μοντέλο συγκεκριμένων πολιτισμικών ιδεών και ιδιορρυθμιών.
Η τρίτη προσέγγιση είναι η προσαρμογή των μοντέλων μετά την εκπαίδευσή τους. Τόσο το Jais όσο και το OpenHathi είχαν κάποια ζεύγη ερωτήσεων-απαντήσεων επεξεργασμένα από ανθρώπους. Το ίδιο συμβαίνει και με τα δυτικά chatbots, για να σταματήσουν να διαδίδουν αυτό που οι δημιουργοί τους θεωρούν παραπληροφόρηση. Το Ernie Bot, ένα LLM από την Baidu, μια μεγάλη κινεζική εταιρεία τεχνολογίας, έχει τροποποιηθεί για να προσπαθήσει να σταματήσει να λέει πράγματα για τα οποία η κυβέρνηση θα μπορούσε να έχει αντιρρήσεις. Τα μοντέλα μπορούν επίσης να μάθουν από την ανθρώπινη ανατροφοδότηση, κατά την οποία οι χρήστες βαθμολογούν τις απαντήσεις ενός LLM. Αλλά αυτό είναι δύσκολο να γίνει για πολλές γλώσσες του φτωχού κόσμου, λέει ο Δρ Μπάλντουιν, καθώς απαιτεί την πρόσληψη ανθρώπων που είναι αρκετά εγγράμματοι ώστε να κριτικάρουν τα γραπτά της μηχανής.
Το πόσο καλά θα λειτουργήσουν όλα αυτά μένει να το δούμε. Το ένα τέταρτο των ενηλίκων της Ινδίας είναι αναλφάβητοι, κάτι που δεν πρόκειται να λυθεί με καμία διόρθωση του LLM. Πολλοί Ινδοί προτιμούν να επικοινωνούν με φωνητικά μηνύματα παρά με γραπτά μηνύματα. Η τεχνητή νοημοσύνη μπορεί επίσης να μετατρέψει την ομιλία σε λέξεις, όπως κάνει το chatbot της Ινδίας για τους αγρότες. Αλλά αυτό προσθέτει ένα ακόμη βήμα στο οποίο μπορεί να παρεισφρήσουν λάθη.
Και είναι πιθανό ότι οι κατασκευαστές τοπικών LLMs μπορεί τελικά να βγουν εκτός επιχείρησης από τις προσπάθειες των μεγάλων της Silicon Valley. Αν και απέχει πολύ από το να είναι τέλειο, το ChatGPT-4 είναι πολύ καλύτερο από το ChatGPT-3 στην απάντηση ερωτήσεων σε μη αγγλικές γλώσσες. Όπως και να γίνει, η διδασκαλία της τεχνητής νοημοσύνης να μιλάει περισσότερες από τις περίπου 7.000 γλώσσες του κόσμου μόνο καλό μπορεί να είναι.






























