Споры вокруг веб-краулера ClaudeBot от Anthropic
Веб-краулер ClaudeBot, используемый компанией Anthropic для сбора данных для обучения своих ИИ-моделей, вызвал значительный резонанс после того, как, как сообщается, он за день отправил почти миллион запросов на сайт iFixit. Это поведение ставит серьезные вопросы о соответствии краулера условиям использования iFixit.
Ответ генерального директора iFixit на несанкционированный сбор данных
В ответе iFixit генеральный директор Кайл Уиенс в своем сообщении на X (ранее Twitter) подчеркнул это нарушение, опубликовав соответствующие изображения, которые показывают, что ClaudeBot признает ограничение на доступ к контенту iFixit. Уиенс выразил недовольство компании по поводу ситуации, заявив: "Если бы какие-либо из этих запросов получили доступ к нашим условиям обслуживания, они бы сказали вам, что использование нашего контента строго запрещено. Но не спрашивайте меня, спрашивайте Claude!" Он также подчеркнул: "Вы не только берете наш контент без оплаты, но и блокируете ресурсы нашей команды DevOps."
Технические последствия чрезмерного краулинга
Уиенс подробнее объяснил значительное воздействие этих чрезмерных запросов, которые активировали системы сигнализации, предназначенные для защиты их инфраструктуры. "Скорость краулинга была такой высокой, что это сработало на всех наших сигнализациях и активировало нашу команду DevOps", - пояснил он изданию The Verge. Будучи одним из самых посещаемых сайтов в интернете, iFixit привык справляться с веб-краулерами; однако уровень активности, проявленный ClaudeBot, был необычным и чрезмерным.
Условия использования и проблемы с соблюдением
Согласно условиям использования iFixit, любое воспроизведение, копирование или распространение контента с их сайта строго запрещено без предварительного письменного разрешения. Это ограничение прямо касается и обучения ИИ-моделей. Тем не менее, в ответ на запросы от 404 Media, Anthropic ссылалась на страницу часто задаваемых вопросов, настоятельно утверждая, что ее краулер можно заблокировать только через файл robots.txt.
Внедрение задержки краулинга
После этих событий iFixit добавил расширение задержки краулинга в свой файл robots.txt. "Исходя из наших журналов, они перестали после того, как мы добавили это в robots.txt", - заявил Уиенс. Представитель Anthropic подтвердил это соблюдение, заявив: "Мы уважаем robots.txt, и наш краулер уважал этот сигнал, когда iFixit его внедрил." Это событие предполагает временное разрешение проблемы между iFixit и Anthropic.
Широкая проблема: Опыт других сайтов
Этот инцидент не является изолированным случаем, так как другие операторы сайтов, такие как соучредитель Read the Docs Эрик Холшер и генеральный директор Freelancer.com Мэтт Барри, сообщили о аналогичных проблемах с веб-краулером Anthropic. Пользователи на таких платформах, как Reddit, также выразили обеспокоенность, отметив значительное увеличение активности сбора данных, связанного с ClaudeBot, ранее в этом году. Например, веб-форум Linux Mint отметил, что его сайт испытывал сбой из-за чрезмерной нагрузки от ClaudeBot.
Ограничения robots.txt для контроля веб-сканирования
Зависимость от файлов robots.txt для контроля поведения веб-краулеров является спорной темой в отрасли. Хотя многие компании ИИ, включая OpenAI, используют этот метод, он предоставляет минимальную гибкость для определения различных условий сканирования. Более того, такие компании, как Perplexity, сообщают, что игнорировали эти исключения. Несмотря на сложности, некоторые организации, такие как Reddit, начали внедрять более строгий контроль над веб-краулерами для защиты целостности своих данных.
Заключение: Инцидент с краулингом iFixit ClaudeBot от Anthropic подчеркивает продолжающееся напряжение между практиками обучения ИИ и правами владельцев сайтов защищать свой контент. Эта ситуация побуждает к дальнейшему обсуждению лучших практик использования данных и этичного обучения ИИ.
Оставить комментарий
Все комментарии перед публикацией проверяются.
Этот веб-сайт защищается hCaptcha. Применяются Политика конфиденциальности и Условия использования hCaptcha.