Anthropic의 ClaudeBot 웹 크롤러를 둘러싼 논란
AI 모델의 훈련 데이터를 스크랩하기 위해 Anthropic이 사용하는 ClaudeBot 웹 크롤러가 단 하루에 iFixit 웹사이트에 거의 백만 건의 요청을 보내면서 상당한 논란을 불러일으켰습니다. 이러한 행동은 크롤러의 iFixit 이용약관 준수 여부에 대해 심각한 질문을 제기합니다.
무단 스크랩에 대한 iFixit CEO의 반응
iFixit의 CEO인 Kyle Wiens는 이 위반 사안을 강조하기 위해 X(구 Twitter)에 게시글을 올리며, iFixit의 콘텐츠 접근 제한을 인정하는 ClaudeBot의 관련 이미지를 게시했습니다. Wiens는 이 상황에 대한 회사의 불만을 표현하며 "만약 그 요청 중 어느 것이 우리의 서비스 약관에 접근했다면, 당신에게 우리의 콘텐츠 사용이 명백히 금지되어 있다고 말했을 것입니다. 하지만 나에게 묻지 마세요, Claude에게 물어보세요!"라고 말했습니다. 그는 "당신은 단순히 우리의 콘텐츠를 지불하지 않고 가져가는 것뿐만 아니라, 우리의 개발 운영 자원도 잡고 있습니다"라고 강조했습니다.
과도한 크롤링의 기술적 영향
Wiens는 이러한 과도한 요청이 그들의 인프라를 보호하기 위한 경고 시스템을 작동시킨 중대한 영향을 자세히 설명했습니다. 그는 The Verge에 "크롤링 비율이 너무 높아 모든 알람이 울렸고, 우리의 개발 운영 팀이 출동했습니다"라고 설명했습니다. iFixit은 인터넷에서 가장 방문자가 많은 사이트 중 하나로서 웹 크롤러를 다루는 데 익숙하지만, ClaudeBot의 활동 수준은 비정상적이고 과도했습니다.
이용 약관과 준수 문제
iFixit의 이용 약관에 따르면, 그들의 웹사이트에서 콘텐츠를 재생산, 복사 또는 배포하는 것은 사전 서면 허가 없이 엄격히 금지되어 있습니다. 이 제한은 AI 모델의 훈련도 명시적으로 포함됩니다. 그럼에도 불구하고 404 Media의 질문에 대한 응답으로, Anthropic은 FAQ 페이지를 참조하며 자사의 크롤러는 robots.txt 파일 확장을 통해서만 차단될 수 있다고 주장했습니다.
크롤 지연 구현
이 사건 이후 iFixit은 robots.txt 파일에 크롤 지연 확장을 추가했습니다. Wiens는 "우리의 로그에 따르면, robots.txt에 이를 추가한 후 그들은 중단했습니다"라고 주장했습니다. Anthropic의 대변인은 이 준수를 확인하며, "우리는 robots.txt를 존중하며, 우리의 크롤러는 iFixit이 이를 구현했을 때 그 신호를 존중했습니다"라고 말했습니다. 이 발전은 iFixit과 Anthropic 간의 문제에 대한 일시적인 해결책을 제시합니다.
더 넓은 문제: 다른 웹사이트의 경험
이번 사건은 단독 사례가 아니며, Read the Docs의 공동 창립자 Eric Holscher와 Freelancer.com CEO Matt Barrie와 같은 다른 웹사이트 운영자들도 Anthropic의 웹 크롤러와 유사한 문제를 보고했습니다. Reddit과 같은 플랫폼의 사용자들도 ClaudeBot에 의해 스크래핑 활동이 뚜렷하게 증가한 것에 대한 우려를 표명했습니다. 예를 들어, Linux Mint 웹 포럼은 ClaudeBot으로 인한 과도한 부하로 인해 사이트가 중단된 사례를 언급했습니다.
웹 스크래핑 제어를 위한 robots.txt의 한계
웹 크롤러 행동을 제어하기 위해 robots.txt 파일에 의존하는 것은 업계 내에서 논란이 많은 주제입니다. OpenAI를 포함한 많은 AI 회사들이 이 방법을 사용하지만, 서로 다른 스크래핑 조건을 정의하는 데 유연성이 거의 없습니다. 게다가 Perplexity와 같은 회사는 이러한 제외 조항을 무시한 것으로 보고되고 있습니다. 그럼에도 불구하고 Reddit과 같은 일부 조직은 데이터 무결성을 보호하기 위해 웹 크롤러에 대한 더 엄격한 통제를 시행하기 시작했습니다.
결론: Anthropic의 ClaudeBot이 iFixit을 스크래핑한 사건은 AI 훈련 관행과 웹사이트 소유자의 콘텐츠 보호 권리 간의 ongoing 긴장을 강조합니다. 이 상황은 데이터 사용 및 윤리적 AI 훈련을 위한 최선의 실천에 대한 더 많은 논의를 촉구합니다.
댓글 남기기
모든 댓글은 게시 전 검토됩니다.
이 사이트는 hCaptcha에 의해 보호되며, hCaptcha의 개인 정보 보호 정책 과 서비스 약관 이 적용됩니다.