ClaudeBot di Anthropic Viola le Regole Anti-AI Scraping dei Siti Web

Controversia intorno al crawler web ClaudeBot di Anthropic

Il crawler web ClaudeBot, utilizzato da Anthropic per raccogliere dati di addestramento per i suoi modelli di intelligenza artificiale, ha suscitato notevoli controversie dopo che ha bombardato il sito web di iFixit con quasi un milione di richieste in un solo giorno. Questo comportamento solleva serie interrogativi sulla conformità del crawler ai Termini di utilizzo di iFixit.

Risposta del CEO di iFixit allo scraping non autorizzato

In una risposta decisa, il CEO di iFixit Kyle Wiens ha utilizzato X (ex Twitter) per evidenziare questa violazione, pubblicando immagini pertinenti che dimostrano come ClaudeBot riconoscesse la restrizione all'accesso ai contenuti di iFixit. Wiens ha espresso la frustrazione dell'azienda riguardo alla situazione, affermando: "Se una di quelle richieste avesse accesso ai nostri termini di servizio, ti avrebbero informato che l'uso dei nostri contenuti è esplicitamente vietato. Ma non chiedere a me, chiedi a Claude!" Ha inoltre sottolineato: "Non solo stai prendendo i nostri contenuti senza pagare, ma stai anche bloccando le nostre risorse del devops."

Implicazioni tecniche di un crawling eccessivo

Wiens ha elaborato sull'impatto significativo di queste richieste eccessive, che hanno attivato sistemi di allerta destinati a proteggere la loro infrastruttura. "La velocità di crawling era così alta che ha attivato tutti i nostri allarmi e ha fatto intervenire il nostro team di devops," ha spiegato a The Verge. Essendo uno dei siti più visitati su internet, iFixit è abituato a gestire crawlers web; tuttavia, il livello di attività mostrato da ClaudeBot era insolito ed eccessivo.

Termini di utilizzo e problematiche di conformità

Secondo i Termini di utilizzo di iFixit, qualsiasi riproduzione, copia o distribuzione di contenuti dal loro sito è espressamente vietata senza previa autorizzazione scritta. Questa restrizione include esplicitamente l'addestramento di modelli di intelligenza artificiale. Nonostante ciò, in risposta a domande di 404 Media, Anthropic ha rimandato a una pagina FAQ insistendo che il suo crawler può essere ostacolato solo tramite un'estensione di file robots.txt.

Implementazione del Crawl-Delay

Dopo questi eventi, iFixit ha aggiunto un'estensione di crawl-delay al suo file robots.txt. "In base ai nostri registri, hanno smesso dopo che l'abbiamo aggiunto al robots.txt," ha dichiarato Wiens. Un portavoce di Anthropic ha confermato questa conformità, affermando: "Rispettiamo robots.txt e il nostro crawler ha rispettato quel segnale quando iFixit lo ha implementato." Questo sviluppo suggerisce una risoluzione temporanea della questione tra iFixit e Anthropic.

Un problema più ampio: esperienze di altri siti web

Questo incidente non è un caso isolato, poiché altri operatori di siti web, come il co-fondatore di Read the Docs Eric Holscher e il CEO di Freelancer.com Matt Barrie, hanno segnalato problemi simili con il crawler web di Anthropic. Anche gli utenti su piattaforme come Reddit hanno espresso preoccupazioni, citando un notevole aumento dell'attività di scraping attribuibile a ClaudeBot all'inizio di quest'anno. Il forum web di Linux Mint, ad esempio, ha notato che il suo sito ha subito un'interruzione a causa del carico eccessivo da parte di ClaudeBot.

Limitazioni di Robots.txt per il controllo dello scraping web

Fare affidamento sui file robots.txt per controllare il comportamento dei crawler web è un argomento controverso all'interno dell'industria. Sebbene molte aziende di intelligenza artificiale, inclusa OpenAI, utilizzino questo metodo, offre una flessibilità minima per definire diverse condizioni di scraping. Inoltre, aziende come Perplexity hanno riportato di aver ignorato completamente queste esclusioni. Nonostante le sfide, alcune organizzazioni, come Reddit, hanno iniziato a implementare controlli più severi sui crawler web per proteggere l'integrità dei loro dati.

Conclusione: L'incidente che coinvolge ClaudeBot di Anthropic che scava iFixit mette in evidenza le tensioni in corso tra le pratiche di addestramento dell'IA e i diritti dei proprietari dei siti web di proteggere i loro contenuti. Questa situazione sollecita ulteriori discussioni sulle migliori pratiche per l'uso dei dati e l'addestramento etico dell'IA.