Ο δημοσιογράφος του Atlantic, Alex Reisner, αποκάλυψε πρόσφατα τέσσερα datasets μουσικής που χρησιμοποιούνται για την εκπαίδευση μοντέλων AI και τα έκανε πλήρως αναζητήσιμα για το κοινό. Δύο από τα σύνολα είναι τεράστια, με 12 εκατομμύρια και 9 εκατομμύρια κομμάτια αντίστοιχα. Τα άλλα δύο είναι μικρότερα, αλλά εξακολουθούν να αντιστοιχούν σε σημαντικό όγκο δεδομένων εκπαίδευσης, με πάνω από 100.000 τραγούδια το καθένα.
Σύμφωνα με τον Reisner, τα datasets έχουν γίνει λήψη χιλιάδες φορές και, αν και δεν είναι δυνατό να διαπιστωθεί με ακρίβεια ποιος τα έχει χρησιμοποιήσει, η Google και η Stability έχουν επιβεβαιώσει ότι τα ανέφεραν σε ερευνητικές τους εργασίες. Ορισμένες από τις πηγές, όπως το dataset του Free Music Archive, είναι διαθέσιμες για δωρεάν ακρόαση για προσωπική χρήση, αλλά απαιτούν άδεια για εμπορικές εφαρμογές.
Αν και, θεωρητικά, τα datasets είναι ελεύθερα διαθέσιμα στο διαδίκτυο, η χρήση τους ως δεδομένα εκπαίδευσης δεν είναι τόσο απλή όσο το να κατεβάσει κανείς ένα ZIP αρχείο και να το δώσει σε ένα μοντέλο AI. Όπως εξηγεί ο Reisner:
Τα ονόματα που εμφανίζονται μέσα στα datasets κυμαίνονται από ποπ σταρ όπως η Lady Gaga και ο Fred Again.., μέχρι τους Radiohead, τους Aphex Twin, τους Wu-Tang Clan, τον Bruce Springsteen και τον πειραματικό συνθέτη Hainbach. Μπορεί κανείς να επισκεφθεί το site AI Watchdog του Atlantic και να αναζητήσει μόνος του τα τραγούδια, τα βιβλία και τα υπόλοιπα μέσα που χρησιμοποιούνται για την εκπαίδευση των μοντέλων AI σε όλο τον κόσμο.