AI scraping

Anthropic的ClaudeBot违反了网站的反AI抓取规则

Anthropic ClaudeBot web scraping controversy impacts iFixit.

围绕Anthropic的ClaudeBot网络爬虫的争议

ClaudeBot网络爬虫被Anthropic用于抓取其人工智能模型的训练数据,由于其在短短一天内对iFixit网站发起了近百万次请求,这一行为引发了重大争议。这一行为引发了关于爬虫是否符合iFixit使用条款的严重质疑。

iFixit首席执行官对未授权抓取的回应

对此,iFixit首席执行官Kyle Wiens在X(前Twitter)上强烈回应,指出这一违规行为,发布了相关图片,显示ClaudeBot承认限制访问iFixit内容的规定。Wiens表达了公司对此情况的沮丧,表示:“如果任何请求访问了我们的服务条款,他们会告诉你,使用我们的内容是明确禁止的。但不要问我,问Claude!”他进一步强调:“你不仅在未经支付的情况下获取我们的内容,还占用了我们的devops资源。”

过度抓取的技术影响

Wiens详细说明了这些过度请求的重大影响,触发了旨在保护其基础设施的警报系统。他向The Verge解释说:“抓取速率之高,导致触发了我们所有的警报,并让我们的devops团队忙碌起来。”作为互联网中访问量最大的网站之一,iFixit习惯于处理网络爬虫;然而ClaudeBot所表现出的活动水平是不寻常且过度的。

使用条款及合规问题

根据iFixit的使用条款,任何对其网站内容的复制、拷贝或分发在未事先获得书面许可的情况下都是严格禁止的。这一限制明确包括人工智能模型的训练。尽管如此,回复404 Media的询问时,Anthropic仍然强调其爬虫只能通过robots.txt文件扩展来阻止。

爬取延迟的实施

在这一事件后,iFixit已在其robots.txt文件中添加了爬取延迟扩展。Wiens声称:“根据我们的日志,他们在我们添加爬取延迟后确实停止了。”一位Anthropic发言人确认了这一合规性,表示:“我们尊重robots.txt,并且我们的爬虫在iFixit实施该信号时也遵守了。”这个进展表明iFixit与Anthropic之间问题的暂时解决。

更广泛的问题:其他网站的经历

此事件并非孤立事件,其他网站运营商,如Read the Docs的联合创始人Eric Holscher和Freelancer.com首席执行官Matt Barrie也报告了与Anthropic的网络爬虫相关的类似问题。Reddit等平台上的用户也表达了担忧,举例提到今年早些时候,ClaudeBot导致了抓取活动显著增加。比如,Linux Mint网站论坛就指出,由于ClaudeBot造成的过载,其网站经历了停机。

robots.txt在网络抓取控制中的局限性

依赖robots.txt文件来控制网络爬虫行为是行业内一个有争议的话题。虽然许多人工智能公司,包括OpenAI,都使用这种方法,但它对定义不同抓取条件的灵活性很小。此外,Perplexity等公司据报完全无视这些排除条款。尽管面临挑战,一些组织,如Reddit,已开始对网络爬虫实施更严格的控制,以保护其数据完整性。

结论:涉及Anthropic的ClaudeBot抓取iFixit的事件凸显了人工智能训练实践与网站拥有者保护其内容权利之间的持续紧张关系。这一情况促使对数据使用和伦理人工智能训练的最佳实践进行进一步讨论。

阅读下一篇

Illustration of Apple CarPlay interface in a modern vehicle
Illustration of Apple CarPlay interface in a modern vehicle

发表评论

所有评论在发布前都会经过审核。

此站点受 hCaptcha 保护,并且 hCaptcha 隐私政策服务条款适用。