AI scraping

ClaudeBot van Anthropic Schendt de Anti-AI Scrapingregels van Websites

Anthropic ClaudeBot web scraping controversy impacts iFixit.

Controversie Rondom Anthropic's ClaudeBot Webcrawler

De ClaudeBot webcrawler, die door Anthropic wordt gebruikt om trainingsdata voor zijn AI-modellen te verzamelen, heeft aanzienlijke controverse veroorzaakt nadat het naar verluidt de website van iFixit op één dag met bijna een miljoen verzoeken heeft gebombardeerd. Dit gedrag roept ernstige vragen op over de naleving van de voorwaarden van iFixit.

Reactie van iFixit CEO op Ongeoorloofd Scrapen

In een krachtige reactie nam iFixit CEO Kyle Wiens de X (voorheen Twitter) om deze overtreding aan te kaarten, met relevante afbeeldingen die aantonen dat ClaudeBot de beperking op toegang tot iFixit’s inhoud erkende. Wiens verwoordde de frustratie van het bedrijf over de situatie en zei: "Als een van die verzoeken onze gebruiksvoorwaarden had geraadpleegd, hadden ze je verteld dat het gebruik van onze inhoud uitdrukkelijk is verboden. Maar vraag het niet aan mij, vraag het aan Claude!" Hij benadrukte verder: "Je neemt niet alleen onze inhoud zonder te betalen, je blokkeert ook onze devops-resources."

Technische Gevolgen van Overmatig Crawlen

Wiens lichtte de significante impact toe van deze overmatige verzoeken, die alarmsystemen activeerden die bedoeld zijn om hun infrastructuur te beschermen. "De crawlsnelheid was zo hoog dat het al onze alarmen afging en ons devops-team in actie bracht," legde hij uit aan The Verge. Als een van de meest bezochte sites op het internet is iFixit gewend aan het omgaan met webcrawlers; echter, het activiteitenniveau dat door ClaudeBot werd weergegeven was ongewoon en excessief.

Gebruiksvoorwaarden en Nalevingskwesties

Volgens de gebruiksvoorwaarden van iFixit is reproductie, kopiëren of distributie van inhoud van hun website strikt verboden zonder voorafgaande schriftelijke toestemming. Deze beperking omvat expliciet de training van AI-modellen. Ondanks dit, in een reactie op vragen van 404 Media, verwees Anthropic terug naar een FAQ-pagina en volhardde dat zijn crawler alleen kan worden tegengehouden door een robots.txt-bestand.

Implementatie van Crawl-Delay

Na deze gebeurtenissen heeft iFixit een crawl-delay-extensie toegevoegd aan zijn robots.txt-bestand. "Op basis van onze logs stopten ze nadat we dit aan de robots.txt hadden toegevoegd," verklaarde Wiens. Een woordvoerder van Anthropic bevestigde deze naleving en verklaarde: "We respecteren robots.txt en onze crawler respecteerde dit signaal toen iFixit het implementeerde." Deze ontwikkeling suggereert een tijdelijke oplossing voor het probleem tussen iFixit en Anthropic.

Een Breder Probleem: Ervaringen van Andere Websites

Dit voorval is geen geïsoleerd geval, andere website-exploitanten, zoals medeoprichter van Read the Docs Eric Holscher en CEO van Freelancer.com Matt Barrie, hebben soortgelijke problemen gerapporteerd met de webcrawler van Anthropic. Gebruikers op platforms zoals Reddit hebben ook bezorgdheid geuit, met vermelding van een opmerkelijke toename in scrapen-activiteit die eerder dit jaar aan ClaudeBot werd toegeschreven. Het Linux Mint-webforum merkte bijvoorbeeld op dat zijn site een uitval had ervaren door de overmatige belasting van ClaudeBot.

Beperkingen van Robots.txt voor Web Scraping Controle

De afhankelijkheid van robots.txt-bestanden voor het beheersen van het gedrag van webcrawlers is een omstreden onderwerp binnen de industrie. Terwijl veel AI-bedrijven, waaronder OpenAI, deze methode toepassen, biedt het minimale flexibiliteit om verschillende scraping-voorwaarden te definiëren. Bovendien hebben bedrijven zoals Perplexity deze uitsluitingen naar verluidt volledig genegeerd. Ondanks de uitdagingen zijn sommige organisaties, zoals Reddit, begonnen met het implementeren van strengere controles op webcrawlers om de integriteit van hun gegevens te beschermen.

Conclusie: Het incident waarbij Anthropic’s ClaudeBot iFixit heeft gescrapet, benadrukt de voortdurende spanningen tussen AI-trainingspraktijken en de rechten van website-eigenaren om hun inhoud te beschermen. Deze situatie dringt aan op verdere discussies over best practices voor datagebruik en ethische AI-training.

Volgende lezen

Illustration of Apple CarPlay interface in a modern vehicle
Illustration of Apple CarPlay interface in a modern vehicle

Laat een reactie achter

Alle reacties worden gemodereerd voordat ze worden gepubliceerd.

Deze site wordt beschermd door hCaptcha en het privacybeleid en de servicevoorwaarden van hCaptcha zijn van toepassing.