ClaudeBot al lui Anthropic încalcă regulile anti-scraping ale site-uri

Controversa din jurul crawler-ului web ClaudeBot de la Anthropic

Crawler-ul web ClaudeBot, utilizat de Anthropic pentru extragerea datelor de antrenament pentru modelele sale de AI, a stârnit controverse semnificative după ce a bombardat site-ul iFixit cu aproape un milion de solicitări într-o singură zi. Acest comportament ridică întrebări serioase despre conformitatea crawler-ului cu termenii de utilizare ai iFixit.

Răspunsul CEO-ului iFixit la extragerea neautorizată

Într-un răspuns ferm, CEO-ul iFixit, Kyle Wiens, a folosit X (fost Twitter) pentru a sublinia această încălcare, postând imagini pertinente care demonstrează că ClaudeBot recunoaște restricția de accesare a conținutului iFixit. Wiens a articulat frustrarea companiei în legătură cu situația, afirmând: "Dacă vreuna dintre acele solicitări a accesat termenii noștri de serviciu, ar fi spus că utilizarea conținutului nostru este expres interzisă. Dar nu mă întrebați pe mine, întrebați-l pe Claude!" El a mai subliniat: "Nu doar că luați conținutul nostru fără a plăti, dar și aglomerați resursele noastre de devops."

Implicările tehnice ale crawling-ului excesiv

Wiens a detaliat impactul semnificativ al acestor cereri excesive, care au activat sistemele de alarmă menite să protejeze infrastructura lor. "Rata de crawling a fost atât de mare încât a declanșat toate alarmele noastre și a mobilizat echipa noastră de devops," a explicat el pentru The Verge. Ca unul dintre cele mai vizitate site-uri de pe internet, iFixit este obișnuit să facă față crawler-ilor web; cu toate acestea, nivelul de activitate arătat de ClaudeBot a fost neobișnuit și excesiv.

Termenii de utilizare și problemele de conformitate

Conform termenilor de utilizare ai iFixit, orice reproducere, copiere sau distribuire a conținutului de pe site-ul lor este strict interzisă fără permisiune prealabilă scrisă. Această restricție include în mod expres antrenarea modelelor de AI. Cu toate acestea, într-un răspuns la întrebările de la 404 Media, Anthropic a făcut referire la o pagină FAQ insistând că crawler-ul său poate fi obstrucționat doar printr-o extensie robots.txt.

Implementarea crawl-delay

În urma acestor evenimente, iFixit a adăugat o extensie crawl-delay în fișierul său robots.txt. "Pe baza jurnalelor noastre, au încetat după ce am adăugat-o în robots.txt," a afirmat Wiens. Un purtător de cuvânt al Anthropic a confirmat această conformitate, afirmând: "Respectăm robots.txt și crawler-ul nostru a respectat acel semnal când iFixit l-a implementat." Această evoluție sugerează o soluție temporară a problemei dintre iFixit și Anthropic.

O problemă mai largă: Experiențe din alte site-uri

Această întâmplare nu este un caz izolat, deoarece alți operatori de site-uri, cum ar fi co-fondatorul Read the Docs, Eric Holscher, și CEO-ul Freelancer.com, Matt Barrie, au raportat probleme similare cu crawler-ul web al Anthropic. Utilizatorii de pe platforme precum Reddit au expresat de asemenea îngrijorări, citând o creștere notabilă a activității de extragere atribuită ClaudeBot mai devreme în acest an. Forumul web Linux Mint, de exemplu, a semnalat că site-ul său a experimentat o întrerupere din cauza încărcării excesive din partea ClaudeBot.

Limitările robots.txt pentru controlul extragerii web

Dependenta de fișiere robots.txt pentru controlul comportamentului crawler-ilor web este un subiect controversat în cadrul industriei. Deși multe companii de AI, inclusiv OpenAI, folosesc această metodă, aceasta oferă flexibilitate minimă pentru a defini condiții diferite de extragere. În plus, companii precum Perplexity au raportat că au ignorat aceste excluzii în mod deschis. În ciuda provocărilor, unele organizații, cum ar fi Reddit, au început să implementeze controale mai stricte asupra crawler-ilor web pentru a proteja integritatea datelor lor.

Concluzie: Incidentul implicând extragerea iFixit de către ClaudeBot de la Anthropic evidențiază tensiunile continue între practicile de antrenament AI și drepturile proprietarilor de site-uri de a-și proteja conținutul. Această situație solicită discuții suplimentare asupra celor mai bune practici pentru utilizarea datelor și antrenarea etică a AI.

ClaudeBot al lui Anthropic încalcă regulile anti-scraping ale site-urilor