Η Perplexity κατηγορείται ότι αγνοεί τα blocks και긁ει ιστοσελίδες παρά τη ρητή απαγόρευση

Η εταιρεία υποδομών διαδικτύου Cloudflare κατηγορεί την AI startup Perplexity ότι συνεχίζει να αντλεί περιεχόμενο από ιστοσελίδες που έχουν ρητά αποκλείσει τους bots της. Σύμφωνα με έρευνα της Cloudflare, η Perplexity αλλάζει την ταυτότητα των crawlers της για να παρακάμπτει τα εμπόδια — μια πρακτική που παρατηρήθηκε σε δεκάδες χιλιάδες domains και εκατομμύρια αιτήματα ημερησίως.

Η Perplexity, μια από τις πιο γνωστές AI εταιρείες αναζήτησης, βρίσκεται ξανά στο επίκεντρο κατηγοριών για αθέμιτη συλλογή δεδομένων. Αυτή τη φορά η καταγγελία έρχεται από την Cloudflare, έναν από τους μεγαλύτερους παρόχους υποδομής διαδικτύου παγκοσμίως, ο οποίος δημοσίευσε έρευνα που υποστηρίζει ότι η Perplexity αγνοεί συστηματικά τα blocks που θέτουν οι ιστοσελίδες στους AI crawlers της.

Το ζήτημα αφορά ένα από τα πιο βασικά εργαλεία που έχουν στη διάθεσή τους οι διαχειριστές ιστοσελίδων: το αρχείο Robots.txt. Πρόκειται για ένα πρότυπο του διαδικτύου που επιτρέπει στους ιδιοκτήτες sites να ορίζουν ποιες σελίδες μπορούν να ευρετηριαστούν από μηχανές αναζήτησης και AI εταιρείες — και ποιες όχι. Η Cloudflare ισχυρίζεται ότι η Perplexity παρακάμπτει αυτούς τους κανόνες αλλάζοντας το “user agent” των bots της, δηλαδή το αναγνωριστικό σήμα που αποκαλύπτει ποιος επισκέπτεται μια σελίδα, καθώς και τα autonomous system networks (ASN) που χρησιμοποιεί. Με άλλα λόγια, οι crawlers της Perplexity μεταμφιέζονται για να μην αναγνωριστούν και αποκλειστούν.

Σύμφωνα με την Cloudflare, η δραστηριότητα αυτή εντοπίστηκε σε δεκάδες χιλιάδες domains και αντιστοιχεί σε εκατομμύρια αιτήματα ημερησίως. Η εταιρεία λέει ότι κατάφερε να αναγνωρίσει τον crawler χρησιμοποιώντας συνδυασμό machine learning και σημάτων δικτύου. Χαρακτηριστικά, παρατήρησε ότι η Perplexity χρησιμοποιεί έναν γενικό browser agent που μιμείται το Google Chrome σε macOS, ακριβώς για να αποφύγει τον εντοπισμό όταν ο δηλωμένος crawler της έχει ήδη αποκλειστεί.

Η Perplexity αρνείται τις κατηγορίες. Εκπρόσωπος της εταιρείας χαρακτήρισε το blog post της Cloudflare ως “διαφημιστικό pitch”, υποστηρίζοντας ότι τα στιγμιότυπα που δημοσιεύτηκαν δείχνουν πως δεν αποκτήθηκε πρόσβαση σε κανένα περιεχόμενο. Σε δεύτερο email, ο εκπρόσωπος ισχυρίστηκε ότι το bot που αναφέρεται στο post δεν ανήκει καν στην εταιρεία. Η Cloudflare, από την πλευρά της, ανακοίνωσε ότι αφαίρεσε τα bots της Perplexity από τη λίστα επαληθευμένων crawlers και πρόσθεσε νέες τεχνικές αποκλεισμού.

Δεν είναι η πρώτη φορά που η Perplexity βρίσκεται στο στόχαστρο για παρόμοιες πρακτικές. Πέρυσι, μέσα ενημέρωσης όπως το Wired κατήγγειλαν ότι η εταιρεία αναπαρήγαγε περιεχόμενό τους χωρίς άδεια. Λίγες εβδομάδες αργότερα, ο CEO της Perplexity, Aravind Srinivas, δεν μπόρεσε να απαντήσει άμεσα όταν ρωτήθηκε σε συνέντευξη να ορίσει τι σημαίνει “λογοκλοπή” για την εταιρεία του.

Η υπόθεση αυτή εντάσσεται σε ένα ευρύτερο πόλεμο που διεξάγεται αθόρυβα στο διαδίκτυο: από τη μια, AI εταιρείες που χρειάζονται τεράστιες ποσότητες δεδομένων για να τροφοδοτήσουν τα μοντέλα τους, και από την άλλη, εκδότες και ιδιοκτήτες περιεχομένου που βλέπουν τη δουλειά τους να αντλείται χωρίς αποζημίωση ή άδεια. Η Cloudflare έχει πάρει ξεκάθαρη θέση στη διαμάχη: τον περασμένο μήνα ανακοίνωσε marketplace που επιτρέπει στους εκδότες να χρεώνουν τους AI scrapers που επισκέπτονται τα sites τους, ενώ ο CEO της εταιρείας έχει προειδοποιήσει ότι η AI απειλεί το επιχειρηματικό μοντέλο του διαδικτύου. Το ερώτημα που μένει ανοιχτό είναι αν οι τεχνικές λύσεις αποκλεισμού θα αποδειχτούν αρκετές — ή αν η απάντηση θα πρέπει τελικά να έρθει από τη νομοθεσία.

Σχετικά άρθρα