“Ο βασιλιάς είναι νεκρός”-Ο Claude 3 ξεπερνά για πρώτη φορά το GPT4 στο Chatbot Arena

Το Claude 3 της Anthropic είναι το πρώτο που εκτοπίζει το GPT-4 από το #1 από την έναρξη του Chatbot Arena τον Μάιο του ’23.

Το μεγάλο γλωσσικό μοντέλο (LLM) Claude 3 Opus της Anthropic ξεπέρασε για πρώτη φορά το GPT-4 της OpenAI (το οποίο τροφοδοτεί το ChatGPT) στο Chatbot Arena, έναν δημοφιλή πίνακα κατάταξης που χρησιμοποιείται από τους ερευνητές ΤΝ για τη μέτρηση των σχετικών δυνατοτήτων των γλωσσικών μοντέλων ΤΝ. “Ο βασιλιάς είναι νεκρός”, έγραψε στο Twitter ο προγραμματιστής λογισμικού Nick Dobos σε μια ανάρτηση που συνέκρινε το GPT-4 Turbo και το Claude 3 Opus και έκανε το γύρο των μέσων κοινωνικής δικτύωσης. “RIP GPT-4”.

Από τότε που το GPT-4 συμπεριλήφθηκε στο Chatbot Arena γύρω στις 10 Μαΐου 2023 (ο πίνακας κατάταξης ξεκίνησε στις 3 Μαΐου του ίδιου έτους), οι παραλλαγές του GPT-4 βρίσκονταν σταθερά στην κορυφή του πίνακα μέχρι σήμερα, οπότε η ήττα του στο Arena είναι μια αξιοσημείωτη στιγμή στη σχετικά σύντομη ιστορία των γλωσσικών μοντέλων τεχνητής νοημοσύνης. Ένα από τα μικρότερα μοντέλα της Anthropic, το Haiku, τράβηξε επίσης τα βλέμματα με τις επιδόσεις του στον πίνακα κατάταξης.

“Για πρώτη φορά, τα καλύτερα διαθέσιμα μοντέλα-Opus για προχωρημένες εργασίες, Haiku για κόστος και αποδοτικότητα-είναι από έναν προμηθευτή που δεν είναι το OpenAI”, δήλωσε ο ανεξάρτητος ερευνητής AI Simon Willison στο Ars Technica. “Αυτό είναι καθησυχαστικό – όλοι επωφελούμαστε από την ποικιλία κορυφαίων προμηθευτών σε αυτόν τον χώρο. Αλλά το GPT-4 είναι πάνω από ένα χρόνο παλιό σε αυτό το σημείο, και χρειάστηκε αυτός ο χρόνος για οποιονδήποτε άλλον να το προλάβει”.

Το Chatbot Arena διοικείται από τον Οργανισμό Συστημάτων Μεγάλων Μοντέλων (LMSYS ORG), έναν ερευνητικό οργανισμό αφιερωμένο στα ανοικτά μοντέλα, ο οποίος λειτουργεί ως συνεργασία μεταξύ φοιτητών και καθηγητών του Πανεπιστημίου της Καλιφόρνιας, Berkeley, του UC San Diego και του Πανεπιστημίου Carnegie Mellon.

Παρουσιάσαμε το προφίλ του τρόπου λειτουργίας του ιστότοπου τον Δεκέμβριο, αλλά εν συντομία, το Chatbot Arena παρουσιάζει σε έναν χρήστη που επισκέπτεται τον ιστότοπο ένα πλαίσιο εισαγωγής συνομιλίας και δύο παράθυρα που δείχνουν την έξοδο από δύο μη επισημειωμένα LLM. Το καθήκον του χρήστη είναι να βαθμολογήσει ποια έξοδος είναι καλύτερη με βάση οποιαδήποτε κριτήρια ο χρήστης κρίνει ως καταλληλότερα. Μέσω χιλιάδων τέτοιων υποκειμενικών συγκρίσεων, το Chatbot Arena υπολογίζει τα “καλύτερα” μοντέλα συνολικά και συμπληρώνει τον πίνακα κατάταξης, ενημερώνοντάς τον με την πάροδο του χρόνου.

Το Chatbot Arena είναι σημαντικό για τους ερευνητές επειδή συχνά απογοητεύονται στην προσπάθεια να μετρήσουν την απόδοση των AI chatbots, των οποίων οι άγρια ποικίλες εκροές είναι δύσκολο να ποσοτικοποιηθούν. Στην πραγματικότητα, γράψαμε για το πόσο διαβόητα δύσκολο είναι να συγκριθούν αντικειμενικά τα LLMs στο άρθρο μας για την έναρξη του Claude 3. Για εκείνη την ιστορία, ο Willison τόνισε τον σημαντικό ρόλο των “δονήσεων”, ή των υποκειμενικών συναισθημάτων, στον καθορισμό της ποιότητας ενός LLM. “Άλλη μια περίπτωση των “δονήσεων” ως έννοια-κλειδί στη σύγχρονη τεχνητή νοημοσύνη”, είπε.

Το συναίσθημα των “δονήσεων” είναι συνηθισμένο στο χώρο της τεχνητής νοημοσύνης, όπου τα αριθμητικά κριτήρια αναφοράς που μετρούν τις γνώσεις ή την ικανότητα συμμετοχής σε τεστ συχνά επιλέγονται από τους προμηθευτές για να κάνουν τα αποτελέσματά τους να φαίνονται πιο ευνοϊκά. “Μόλις είχα μια μακρά συνεδρία κωδικοποίησης με το Claude 3 opus και ο άνθρωπος συντρίβει απόλυτα το gpt-4. Δεν νομίζω ότι τα τυποποιημένα benchmarks αποδίδουν δικαιοσύνη σε αυτό το μοντέλο”, έγραψε στο Twitter ο Anton Bacaj, προγραμματιστής λογισμικού AI, στις 19 Μαρτίου.

Η άνοδος του Claude μπορεί να δώσει στο OpenAI μια παύση, αλλά όπως ανέφερε ο Willison, η ίδια η οικογένεια GPT-4 (αν και έχει ενημερωθεί αρκετές φορές) είναι πάνω από ένα χρόνο παλιά. Επί του παρόντος, η Arena απαριθμεί τέσσερις διαφορετικές εκδόσεις του GPT-4, οι οποίες αντιπροσωπεύουν σταδιακές ενημερώσεις του LLM που παγώνουν στο χρόνο επειδή κάθε μία έχει ένα μοναδικό στυλ εξόδου και ορισμένοι προγραμματιστές που τις χρησιμοποιούν με το API του OpenAI χρειάζονται συνοχή ώστε οι εφαρμογές τους που έχουν δημιουργηθεί πάνω στις εξόδους του GPT-4 να μην χαλάσουν.

Αυτές περιλαμβάνουν το GPT-4-0314 (η “αρχική” έκδοση του GPT-4 από τον Μάρτιο του 2023), το GPT-4-0613 (ένα στιγμιότυπο του GPT-4 από τις 13 Ιουνίου 2023, με “βελτιωμένη υποστήριξη κλήσης συναρτήσεων”, σύμφωνα με το OpenAI), το GPT-4-1106-preview (η έκδοση εκκίνησης του GPT-4 Turbo από τον Νοέμβριο του 2023) και το GPT-4-0125-preview (το τελευταίο μοντέλο GPT-4 Turbo, που προορίζεται να μειώσει τις περιπτώσεις “τεμπελιάς” από τον Ιανουάριο του 2024).

Παρόλα αυτά, ακόμη και με τέσσερα μοντέλα GPT-4 στον πίνακα κατάταξης, τα μοντέλα Claude 3 της Anthropic ανεβαίνουν σταθερά στα διαγράμματα από την κυκλοφορία τους στις αρχές του μήνα. Η επιτυχία του Claude 3 μεταξύ των χρηστών του βοηθού AI έχει ήδη κάνει ορισμένους χρήστες LLM να αντικαθιστούν το ChatGPT στην καθημερινή τους ροή εργασίας, τρώγοντας ενδεχομένως το μερίδιο αγοράς του ChatGPT. Στο X, ο προγραμματιστής λογισμικού Pietro Schirano έγραψε: “Ειλικρινά, το πιο τρελό πράγμα σχετικά με όλο αυτό το Claude 3 > GPT-4 είναι πόσο εύκολο είναι απλά να… αλλάξεις;”.

Το παρόμοια ικανό Gemini Advanced της Google κερδίζει επίσης έδαφος στο χώρο των βοηθών τεχνητής νοημοσύνης. Αυτό μπορεί να βάζει την OpenAI σε επιφυλακή προς το παρόν, αλλά μακροπρόθεσμα, η εταιρεία ετοιμάζει νέα μοντέλα. Αναμένεται να κυκλοφορήσει έναν σημαντικό νέο διάδοχο του GPT-4 Turbo (είτε ονομαστεί GPT-4.5 είτε GPT-5) κάποια στιγμή φέτος, ενδεχομένως το καλοκαίρι. Είναι σαφές ότι ο χώρος των LLM θα είναι γεμάτος ανταγωνισμό προς το παρόν, γεγονός που μπορεί να προκαλέσει πιο ενδιαφέρουσες ανακατατάξεις στον πίνακα κατάταξης της Chatbot Arena τους επόμενους μήνες και χρόνια.

Must read

Related Articles