Der Webgigant Cloudflare blockiert standardmäßig das Scraping von Inhalten durch KI-Bots

Internetfirma Cloudflare wird damit beginnen, Crawlern künstlicher Intelligenz standardmäßig den Zugriff auf Inhalte ohne die Erlaubnis oder Entschädigung der Websitebesitzer zu verweigern. Dies könnte die Fähigkeit der KI-Entwickler, ihre Modelle zu trainieren, erheblich beeinträchtigen.
Ab Dienstag wird jede neue Webdomäne, die sich bei Cloudflare anmeldet, gefragt, ob sie KI-Crawler zulassen möchte. Dadurch kann sie effektiv verhindern, dass Bots Daten von ihren Websites scrapen.
Cloudflare ist ein sogenanntes Content Delivery Network (CDN). Es unterstützt Unternehmen dabei, Online-Inhalte und Anwendungen schneller bereitzustellen, indem es die Daten näher am Endnutzer zwischenspeichert. Cloudflare trägt maßgeblich dazu bei, dass Menschen täglich reibungslos auf Webinhalte zugreifen können.
Etwa 16 % des weltweiten Internetverkehrs laufen direkt über das CDN von Cloudflare, schätzte das Unternehmen in einem Bericht aus dem Jahr 2023.
„KI-Crawler durchsuchen Inhalte ohne Ende. Unser Ziel ist es, den Entwicklern die Kontrolle zurückzugeben und gleichzeitig KI-Unternehmen bei Innovationen zu unterstützen“, sagte Matthew Prince, Mitgründer und CEO von Cloudflare, am Dienstag in einer Erklärung.
„Es geht darum, die Zukunft eines freien und lebendigen Internets mit einem neuen Modell zu sichern, das für alle funktioniert“, fügte er hinzu.
KI-Crawler sind automatisierte Bots, die große Datenmengen von Websites, Datenbanken und anderen Informationsquellen extrahieren, um große Sprachmodelle von Anbietern wie OpenAI und Google zu trainieren. .
Während das Internet früher Entwickler belohnte, indem es Benutzer auf Original-Websites weiterleitete, brechen KI-Crawler heute laut Cloudflare dieses Modell auf, indem sie Texte, Artikel und Bilder sammeln, um Antworten auf Anfragen zu generieren, ohne dass Benutzer die Originalquelle besuchen müssen.
Dadurch, so das Unternehmen weiter, entgehen den Herausgebern wichtiger Datenverkehr und damit Einnahmen aus der Online-Werbung.
Der Schritt vom Dienstag baut auf einem Tool auf, das Cloudflare im September letzten Jahres eingeführt hatte und das es Publishern ermöglichte, KI-Crawler mit einem einzigen Klick zu blockieren. Nun geht das Unternehmen noch einen Schritt weiter und macht dies zum Standard für alle Websites, für die es Dienste bereitstellt.
OpenAI lehnte nach eigenen Angaben eine Teilnahme ab, als Cloudflare seinen Plan vorstellte, KI-Crawler standardmäßig zu blockieren, mit der Begründung, dass das Content Delivery Network dem System einen Mittelsmann hinzufüge.
Das von Microsoft unterstützte KI-Labor betonte seine Rolle als Pionier bei der Verwendung von robots.txt, einem Codesatz, der das automatisierte Scraping von Webdaten verhindert, und sagte, seine Crawler respektierten die Präferenzen der Herausgeber.
„KI-Crawler gelten im Allgemeinen als invasiver und selektiver, wenn es um die von ihnen konsumierten Daten geht. Ihnen wird vorgeworfen, Websites zu überlasten und das Benutzererlebnis erheblich zu beeinträchtigen“, sagte Matthew Holman, Partner der britischen Anwaltskanzlei Cripps, gegenüber CNBC.
„Wenn diese Entwicklung erfolgreich wäre, würde sie die Fähigkeit von KI-Chatbots beeinträchtigen, Daten für Trainings- und Suchzwecke zu sammeln“, fügte er hinzu. „Dies dürfte kurzfristige Auswirkungen auf das Training von KI-Modellen haben und könnte langfristig die Funktionsfähigkeit der Modelle beeinträchtigen.“
ANSEHEN: KI-Ingenieure sind sehr gefragt – aber wie sieht der Job wirklich aus?
CNBC