ClaudeBot Anthropic łamie zasady przeciwdziałania skanowaniu stron prz

Kontrowersje wokół internetowego robota ClaudeBot firmy Anthropic

Internetowy robot ClaudeBot, wykorzystywany przez Anthropic do zbierania danych treningowych dla swoich modeli AI, wywołał znaczną kontrowersję po tym, jak rzekomo zalał stronę internetową iFixit prawie milionem żądań w ciągu jednego dnia. To zachowanie rodzi poważne pytania dotyczące zgodności robota z Regulaminem użytkowania iFixit.

Odpowiedź CEO iFixit na nieautoryzowane zbieranie danych

W silnej odpowiedzi, CEO iFixit, Kyle Wiens, zwrócił się do X (wcześniej Twitter), aby zwrócić uwagę na ten naruszenie, publikując odpowiednie zdjęcia na których ClaudeBot przyznaje się do ograniczenia dostępu do treści iFixit. Wiens wyraził frustrację firmy w związku z sytuacją, stwierdzając: "Gdyby któreś z tych żądań dotarło do naszych warunków serwisowych, powiedziałyby Ci, że użycie naszych treści jest wyraźnie zabronione. Ale nie pytaj mnie, zapytaj Claude'a!" Dodał również: "Nie tylko zabierasz nasze treści bez płacenia, ale także zajmujesz nasze zasoby devops."

Implikacje techniczne nadmiernego zbierania danych

Wiens wyjaśnił znaczący wpływ tych nadmiernych żądań, które aktywowały systemy alarmowe mające na celu ochronę ich infrastruktury. "Tempo zbierania danych było tak wysokie, że uruchomiło wszystkie nasze alarmy i zaangażowało nasz zespół devops," wyjaśnił w rozmowie z The Verge. Jako jedna z najczęściej odwiedzanych stron w Internecie, iFixit jest przyzwyczajone do obsługi robotów internetowych; jednak poziom aktywności wykazywany przez ClaudeBot był nietypowy i nadmierny.

Warunki użytkowania i problemy z zgodnością

Zgodnie z Warunkami użytkowania iFixit, jakiekolwiek powielanie, kopiowanie lub dystrybucja treści z ich strony internetowej jest surowo zabroniona bez uprzedniej pisemnej zgody. To ograniczenie wyraźnie obejmuje szkolenie modeli AI. Mimo to, w odpowiedzi na zapytania od 404 Media, Anthropic powołał się na stronę FAQ, twierdząc, że jego robot może być jedynie blokowany przez rozszerzenie pliku robots.txt.

Wdrożenie opóźnienia zbierania

Po tych wydarzeniach, iFixit dodał rozszerzenie opóźnienia zbierania do swojego pliku robots.txt. "Na podstawie naszych logów, rzeczywiście przestali po tym, jak dodaliśmy to do robots.txt," powiedział Wiens. Rzecznik Anthropic potwierdził tę zgodność, mówiąc: "Szanujemy robots.txt, a nasz robot uszanował ten sygnał, gdy iFixit go wdrożył." Ten rozwój sugeruje tymczasowe rozwiązanie problemu między iFixit a Anthropic.

Szerszy problem: Doświadczenia z innych stron internetowych

Incydent ten nie jest odosobnionym przypadkiem, ponieważ inni operatorzy stron internetowych, tacy jak współzałożyciel Read the Docs, Eric Holscher, oraz CEO Freelancer.com, Matt Barrie, zgłosili podobne problemy z internetowym robotem Anthropic. Użytkownicy na platformach takich jak Reddit także wyrazili swoje obawy, wskazując na znaczący wzrost aktywności zbierania danych przypisany do ClaudeBot na początku tego roku. Na przykład, forum internetowe Linux Mint zauważyło, że ich strona doświadczyła awarii z powodu nadmiernego obciążenia ze strony ClaudeBot.

Ograniczenia robots.txt w kontrolowaniu zbierania danych

Opieranie się na plikach robots.txt w celu kontrolowania zachowania robotów internetowych to kontrowersyjny temat w branży. Chociaż wiele firm AI, w tym OpenAI, stosuje tę metodę, oferuje ona minimalną elastyczność w definiowaniu różnych warunków zbierania. Co więcej, firmy takie jak Perplexity rzekomo całkowicie zignorowały te wyłączenia. Mimo wyzwań, niektóre organizacje, takie jak Reddit, rozpoczęły wdrażanie surowszych kontroli nad robotami internetowymi, aby chronić integralność swoich danych.

Podsumowanie: Incydent związany z zbieraniem danych przez ClaudeBot firmy Anthropic w iFixit podkreśla ciągłe napięcia między praktykami szkolenia AI a prawami właścicieli stron internetowych do ochrony ich treści. Ta sytuacja wzywa do dalszych dyskusji na temat najlepszych praktyk dotyczących wykorzystania danych i etycznego szkolenia AI.

ClaudeBot Anthropic łamie zasady przeciwdziałania skanowaniu stron przez AI