Kontroversen um den Web-Crawler ClaudeBot von Anthropic
Der Web-Crawler ClaudeBot, der von Anthropic zum Scraping von Trainingsdaten für seine KI-Modelle verwendet wird, hat erhebliche Kontroversen ausgelöst, nachdem er Berichten zufolge die Website von iFixit mit fast einer Million Anfragen an einem einzigen Tag bombardiert hat. Dieses Verhalten wirft ernsthafte Fragen zur Einhaltung der Nutzungsbedingungen von iFixit auf.
Antwort des iFixit-CEOs auf unbefugtes Scraping
In einer starken Reaktion wendete sich der CEO von iFixit, Kyle Wiens, auf X (ehemals Twitter), um diesen Verstoß zu beleuchten, und postete relevante Bilder, die zeigen, dass ClaudeBot die Einschränkung des Zugriffs auf iFixits Inhalte anerkennt. Wiens äußerte die Frustration des Unternehmens hinsichtlich der Situation und sagte: "Wenn eine dieser Anfragen auf unsere Nutzungsbedingungen zugegriffen hätte, hätte man Ihnen mitgeteilt, dass die Nutzung unserer Inhalte ausdrücklich verboten ist. Aber fragen Sie nicht mich, fragen Sie Claude!" Er betonte weiter: "Sie nehmen nicht nur unsere Inhalte, ohne dafür zu bezahlen, sondern binden auch unsere DevOps-Ressourcen."
Technische Auswirkungen des übermäßigen Crawling
Wiens erläuterte die erheblichen Auswirkungen dieser übermäßigen Anfragen, die Alarmsysteme aktivierten, die zum Schutz ihrer Infrastruktur gedacht sind. "Die Crawling-Rate war so hoch, dass sie all unsere Alarme auslöste und unser DevOps-Team auf Trab hielt," erklärte er gegenüber The Verge. Als eine der meistbesuchten Seiten im Internet ist iFixit es gewohnt, mit Web-Crawlern umzugehen; jedoch waren das Aktivitätsniveau von ClaudeBot ungewöhnlich und übermäßig.
Nutzungsbedingungen und Compliance-Probleme
Laut den Nutzungsbedingungen von iFixit ist jede Reproduktion, Kopie oder Verbreitung von Inhalten von ihrer Website ohne vorherige schriftliche Genehmigung strikt untersagt. Diese Einschränkung schließt ausdrücklich das Training von KI-Modellen ein. Trotz dieser Tatsache verwies Anthropic in einer Antwort auf Anfragen von 404 Media auf eine FAQ-Seite und bestand darauf, dass sein Crawler nur durch eine robots.txt-Dateierweiterung blockiert werden kann.
Implementierung von Crawl-Delay
Nach diesen Ereignissen hat iFixit eine Crawl-Delay-Erweiterung zu seiner robots.txt-Datei hinzugefügt. "Basierend auf unseren Protokollen haben sie nach der Hinzufügung zur robots.txt aufgehört," behauptete Wiens. Ein Sprecher von Anthropic bestätigte diese Einhaltung und sagte: "Wir respektieren robots.txt und unser Crawler respektierte dieses Signal, als iFixit es implementierte." Diese Entwicklung deutet auf eine vorübergehende Lösung des Problems zwischen iFixit und Anthropic hin.
Ein breiteres Problem: Erfahrungen anderer Websites
Dieser Vorfall ist kein Einzelfall, da andere Webseitenbetreiber wie der Mitbegründer von Read the Docs, Eric Holscher, und der CEO von Freelancer.com, Matt Barrie, ähnliche Probleme mit Anthropics Web-Crawler gemeldet haben. Benutzer auf Plattformen wie Reddit haben ebenfalls Bedenken geäußert und einen bemerkenswerten Anstieg der Scraping-Aktivitäten zugunsten von ClaudeBot zu Beginn dieses Jahres festgestellt. Das Linux Mint-Webforum stellte beispielsweise fest, dass seine Seite aufgrund der übermäßigen Last von ClaudeBot ausfiel.
Einschränkungen von robots.txt zur Kontrolle des Web-Scrapings
Die Abhängigkeit von robots.txt-Dateien zur Steuerung des Verhaltens von Web-Crawlern ist ein umstrittenes Thema innerhalb der Branche. Während viele KI-Unternehmen, einschließlich OpenAI, diese Methode anwenden, bietet sie nur minimalen Spielraum, um unterschiedliche Scraping-Bedingungen zu definieren. Darüber hinaus haben Unternehmen wie Perplexity diese Ausschlüsse Berichten zufolge völlig ignoriert. Trotz der Herausforderungen haben einige Organisationen wie Reddit begonnen, strengere Kontrollen für Web-Crawler einzuführen, um die Datenintegrität zu schützen.
Fazit: Der Vorfall, bei dem Anthropics ClaudeBot iFixit scrapt, verdeutlicht die anhaltenden Spannungen zwischen den KI-Trainingspraktiken und den Rechten der Website-Eigentümer, ihre Inhalte zu schützen. Diese Situation erfordert weitere Diskussionen über bewährte Verfahren zur Datennutzung und ethisches KI-Training.
Hinterlasse einen Kommentar
Alle Kommentare werden vor der Veröffentlichung geprüft.
Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.