Η Encyclopaedia Britannica και η Merriam-Webster κατέθεσαν αγωγή εναντίον της OpenAI, ισχυριζόμενες ότι η εταιρεία χρησιμοποίησε το προστατευμένο περιεχόμενό τους για να εκπαιδεύσει το GPT-4, το οποίο στη συνέχεια αναπαράγει αποσπάσματά τους σχεδόν αυτούσια. Η υπόθεση εντάσσεται σε μια σειρά παρόμοιων νομικών διενέξεων που αναδεικνύουν το μεγάλο ερώτημα της εποχής: ποιος κατέχει τα δεδομένα που έφτιαξαν τα μεγάλα γλωσσικά μοντέλα;
Η Encyclopaedia Britannica και ο εκδοτικός οίκος Merriam-Webster κατέθεσαν την Παρασκευή αγωγή εναντίον της OpenAI, με κεντρικό ισχυρισμό ότι το GPT-4 έχει κυριολεκτικά «αποστηθίσει» μεγάλα τμήματα του περιεχομένου τους και τα αναπαράγει κατ’ απαίτηση. Σύμφωνα με τα έγγραφα της αγωγής, το μοντέλο εξάγει αποσπάσματα που ταιριάζουν λέξη προς λέξη με καταχωρίσεις της Britannica — χωρίς άδεια, χωρίς αποζημίωση και χωρίς παραπομπή στην πηγή.
Η Britannica δεν αρκείται στην κατηγορία της αντιγραφής. Ισχυρίζεται επίσης ότι η OpenAI «κανιβαλίζει» την επισκεψιμότητά της στο διαδίκτυο: αντί να κατευθύνει τους χρήστες στον ιστότοπό της, όπως θα έκανε μια παραδοσιακή μηχανή αναζήτησης, το ChatGPT παρέχει απευθείας τις απαντήσεις — απαντήσεις που, σύμφωνα με την αγωγή, «υποκαθιστούν ή ανταγωνίζονται άμεσα» το πρωτότυπο περιεχόμενο. Για έναν εκδοτικό οίκο που επιβιώνει από συνδρομές και διαφημιστικά έσοδα βασισμένα στην επισκεψιμότητα, αυτό δεν είναι απλώς νομικό ζήτημα — είναι υπαρξιακό.
Η υπόθεση δεν είναι μεμονωμένη. Τον Δεκέμβριο του 2023, οι New York Times κατέθεσαν παρόμοια αγωγή εναντίον της OpenAI, παρουσιάζοντας παραδείγματα όπου το ChatGPT αναπαρήγαγε ολόκληρα δημοσιεύματα της εφημερίδας. Τον Σεπτέμβριο του 2024, η Anthropic διευθέτησε εξωδικαστικά μια συλλογική αγωγή από συγγραφείς που κατηγορούσαν την εταιρεία για χρήση βιβλίων τους στην εκπαίδευση του Claude — η αποζημίωση ανήλθε στα 1,5 δισεκατομμύρια δολάρια. Το μοτίβο είναι σαφές: οι εκδότες και οι δημιουργοί περιεχομένου δεν είναι διατεθειμένοι να αποδεχτούν ότι η δουλειά τους αποτέλεσε δωρεάν καύσιμο για τη γενετική AI.
Στο επίκεντρο όλων αυτών των υποθέσεων βρίσκεται ένα νομικό ερώτημα που δεν έχει ακόμα απαντηθεί με σαφήνεια: αποτελεί η χρήση δημοσιευμένου περιεχομένου για την εκπαίδευση AI «εύλογη χρήση» υπό το αμερικανικό δίκαιο πνευματικής ιδιοκτησίας, ή είναι παραβίαση; Οι εταιρείες AI υποστηρίζουν ότι η εκπαίδευση μοντέλων είναι μια μεταμορφωτική διαδικασία που δεν αντιγράφει αλλά μαθαίνει. Οι εκδότες απαντούν με screenshots που δείχνουν το αντίθετο.
Η έκβαση αυτών των δικών θα καθορίσει σε μεγάλο βαθμό πώς θα χτιστεί η επόμενη γενιά AI συστημάτων — και αν οι εταιρείες που τα αναπτύσσουν θα πρέπει να πληρώνουν για τα δεδομένα που τα τρέφουν. Για τη Britannica, που επιβίωσε από την εποχή της τυπογραφίας ως την ψηφιακή εποχή, η μάχη αυτή μοιάζει με την τελευταία δοκιμασία μιας μακράς ιστορίας προσαρμογής.