Η Cloudflare αποκαλύπτει το μεγαλύτερο σκάνδαλο AI scraping - Πώς η Perplexity "χάκαρε" εκατομμύρια ιστοσελίδες - Futurology

Η Cloudflare κατηγορεί την Perplexity ότι παρακάμπτει ρητές απαγορεύσεις scraping σε ιστοσελίδες. Η εταιρεία λέει πως εντόπισε κρυφή δραστηριότητα σε δεκάδες χιλιάδες domains και εκατομμύρια αιτήματα την ημέρα.

Η Cloudflare κατηγορεί την Perplexity ότι σαρώνει και «τραβά» περιεχόμενο από ιστοσελίδες που είχαν δηλώσει ξεκάθαρα πως δεν θέλουν να γίνεται scraping. Σε ανάρτησή της τη Δευτέρα, η εταιρεία υποδομών του διαδικτύου είπε πως παρατήρησε την AI startup να αγνοεί μπλοκαρίσματα και να κρύβει τη δραστηριότητά της, με στόχο, όπως υποστηρίζει, να παρακάμψει τις προτιμήσεις των ιδιοκτητών των sites.

Η υπόθεση ακουμπά ένα από τα πιο πιεστικά μέτωπα γύρω από την τεχνητή νοημοσύνη. Τα προϊόντα όπως αυτά της Perplexity βασίζονται σε τεράστιους όγκους δεδομένων από το διαδίκτυο, ενώ οι εταιρείες AI έχουν εδώ και χρόνια αντλήσει κείμενα, εικόνες και βίντεο πολλές φορές χωρίς άδεια. Οι ιστότοποι προσπαθούν να αντιδράσουν με το Robots.txt, το αρχείο που λέει σε μηχανές αναζήτησης και εταιρείες AI ποια σημεία μπορούν να ευρετηριαστούν και ποια όχι, όμως η αποτελεσματικότητά του παραμένει άνιση.

Σύμφωνα με τη Cloudflare, η Perplexity φαίνεται να παρακάμπτει αυτά τα μπλοκαρίσματα αλλάζοντας το user agent των bots της, δηλαδή το σήμα που δηλώνει σε έναν ιστότοπο τι είδους πρόγραμμα τον επισκέπτεται, αλλά και αλλάζοντας τα δίκτυα αυτόνομης δρομολόγησης, τα γνωστά ASN, έναν αριθμό που ταυτοποιεί μεγάλα δίκτυα στο διαδίκτυο. Η Cloudflare λέει πως η συμπεριφορά αυτή καταγράφηκε σε δεκάδες χιλιάδες domains και σε εκατομμύρια αιτήματα την ημέρα, ενώ κατάφερε να ταυτοποιήσει το crawler με συνδυασμό μηχανικής μάθησης και σημάτων δικτύου.

Η Perplexity απέρριψε τις κατηγορίες. Ο εκπρόσωπός της Jesse Dwyer χαρακτήρισε το blog post της Cloudflare «sales pitch» και είπε στο TechCrunch ότι τα screenshots δείχνουν πως «δεν έγινε πρόσβαση σε κανένα περιεχόμενο». Σε δεύτερο μήνυμα πρόσθεσε πως το bot που αναφέρει η Cloudflare «δεν είναι καν δικό μας». Η Cloudflare, από την πλευρά της, ανέφερε ότι εντόπισε πρώτα τη δραστηριότητα έπειτα από παράπονα πελατών της, οι οποίοι είδαν την Perplexity να συνεχίζει το scraping ακόμα και αφού είχαν βάλει κανόνες στο Robots file και ειδικά μπλοκαρίσματα για τα γνωστά bots της. Μετά τις δοκιμές που έκανε η ίδια, λέει πως επιβεβαίωσε την παράκαμψη.

Η εταιρεία υποδομών πρόσθεσε πως αφαίρεσε τα bots της Perplexity από τη λίστα των verified bots και ενεργοποίησε νέες τεχνικές για να τα μπλοκάρει. Η στάση της απέναντι στα AI crawlers έχει γίνει πιο επιθετική το τελευταίο διάστημα, καθώς τον περασμένο μήνα ανακοίνωσε marketplace που επιτρέπει σε ιδιοκτήτες sites και εκδότες να χρεώνουν τα AI scrapers που επισκέπτονται τις σελίδες τους. Πέρυσι είχε ήδη διαθέσει δωρεάν εργαλείο για την αποτροπή scraping με σκοπό την εκπαίδευση AI μοντέλων. Δεν είναι πάντως η πρώτη φορά που η Perplexity βρίσκεται στο στόχαστρο: πέρυσι μέσα ενημέρωσης όπως το Wired την κατηγόρησαν για αντιγραφή περιεχομένου, ενώ ο CEO της Aravind Srinivas δεν μπόρεσε τότε να δώσει άμεσα ορισμό για την πειρατεία λόγου όταν ρωτήθηκε σε συνέντευξη στο TechCrunch.