ClaudeBot của Anthropic Vi Phạm Quy Định Chống Scraping AI Của Các Tra

Cuộc tranh cãi xung quanh trình thu thập thông tin ClaudeBot của Anthropic

Trình thu thập thông tin ClaudeBot, được Anthropic sử dụng để thu thập dữ liệu đào tạo cho các mô hình AI của mình, đã gây ra cuộc tranh cãi lớn sau khi nó báo cáo đã gửi gần một triệu yêu cầu đến trang web của iFixit chỉ trong một ngày. Hành vi này đặt ra những câu hỏi nghiêm trọng về việc trình thu thập thông tin có tuân thủ Điều khoản Sử dụng của iFixit hay không.

Phản hồi của Giám đốc điều hành iFixit về việc thu thập trái phép

Trong một phản hồi mạnh mẽ, Giám đốc điều hành iFixit, Kyle Wiens, đã lên tiếng trên X (trước đây là Twitter) để làm nổi bật sự vi phạm này, đăng tải những hình ảnh liên quan chứng minh rằng ClaudeBot đã công nhận sự hạn chế trong việc truy cập nội dung của iFixit. Wiens đã bày tỏ sự thất vọng của công ty về tình huống này, nói rằng, "Nếu bất kỳ yêu cầu nào trong số đó truy cập vào các điều khoản dịch vụ của chúng tôi, họ sẽ tự nói với bạn rằng việc sử dụng nội dung của chúng tôi là bị cấm rõ ràng. Nhưng đừng hỏi tôi, hãy hỏi Claude!" Ông còn nhấn mạnh, "Bạn không chỉ lấy nội dung của chúng tôi mà không chi trả, bạn còn làm tổn hại tài nguyên devops của chúng tôi."

Ý nghĩa kỹ thuật của việc thu thập quá mức

Wiens đã phân tích về tác động đáng kể của những yêu cầu quá mức này, mà đã kích hoạt các hệ thống cảnh báo nhằm bảo vệ hạ tầng của họ. "Tốc độ thu thập thông tin cao đến mức đã kích hoạt tất cả các báo động của chúng tôi và khiến đội ngũ devops của chúng tôi hoạt động," ông giải thích với The Verge. Là một trong những trang web được truy cập nhiều nhất trên internet, iFixit đã quen với việc xử lý các trình thu thập thông tin web; tuy nhiên, mức độ hoạt động mà ClaudeBot thể hiện là bất thường và quá mức.

Điều khoản sử dụng và vấn đề tuân thủ

Theo Điều khoản Sử dụng của iFixit, bất kỳ sự sao chép, sao chép lại, hoặc phân phối nội dung từ trang web của họ đều bị cấm nghiêm ngặt mà không có sự cho phép bằng văn bản trước. Sự hạn chế này rõ ràng bao gồm cả việc đào tạo các mô hình AI. Mặc dù vậy, trong một phản hồi cho các câu hỏi từ 404 Media, Anthropic đã quay trở lại một trang FAQ khẳng định rằng trình thu thập của họ chỉ có thể bị chặn thông qua phần mở rộng robots.txt.

Thực hiện Crawl-Delay

Sau các sự kiện này, iFixit đã thêm một phần mở rộng crawl-delay vào tệp robots.txt của mình. "Dựa trên các nhật ký của chúng tôi, họ đã ngừng lại sau khi chúng tôi thêm nó vào robots.txt," Wiens tuyên bố. Một phát ngôn viên của Anthropic đã xác nhận sự tuân thủ này, nói rằng, "Chúng tôi tôn trọng robots.txt và trình thu thập của chúng tôi đã tôn trọng tín hiệu đó khi iFixit thực hiện." Phát triển này cho thấy một giải pháp tạm thời cho vấn đề giữa iFixit và Anthropic.

Một vấn đề rộng hơn: Trải nghiệm từ các trang web khác

Vụ việc này không phải là trường hợp đơn lẻ, khi các nhà điều hành trang web khác, như đồng sáng lập Read the Docs Eric Holscher và Giám đốc điều hành Freelancer.com Matt Barrie, đã báo cáo các vấn đề tương tự với trình thu thập web của Anthropic. Người dùng trên các nền tảng như Reddit cũng đã bày tỏ mối quan ngại, chỉ ra rằng có sự gia tăng đáng kể trong hoạt động thu thập thông tin do ClaudeBot gây ra vào đầu năm nay. Diễn đàn web Linux Mint, chẳng hạn, đã ghi nhận rằng trang của họ gặp sự cố do tải quá mức từ ClaudeBot.

Giới hạn của Robots.txt trong việc kiểm soát thu thập thông tin web

Sự phụ thuộc vào tệp robots.txt để kiểm soát hành vi của trình thu thập web là một chủ đề gây tranh cãi trong ngành. Mặc dù nhiều công ty AI, bao gồm OpenAI, sử dụng phương pháp này, nhưng nó cung cấp rất ít linh hoạt để xác định các điều kiện thu thập khác nhau. Hơn nữa, các công ty như Perplexity được báo cáo là đã hoàn toàn bỏ qua những loại trừ này. Bất chấp những thách thức, một số tổ chức, như Reddit, đã bắt đầu thực hiện kiểm soát nghiêm ngặt hơn đối với các trình thu thập web để bảo vệ tính toàn vẹn dữ liệu của họ.

Kết luận: Vụ việc liên quan đến ClaudeBot của Anthropic thu thập thông tin iFixit nổi bật các căng thẳng đang diễn ra giữa phương pháp đào tạo AI và quyền của các chủ sở hữu trang web trong việc bảo vệ nội dung của họ. Tình huống này thúc giục các cuộc thảo luận thêm về các phương pháp tốt nhất cho việc sử dụng dữ liệu và đào tạo AI có đạo đức.

ClaudeBot của Anthropic Vi Phạm Quy Định Chống Scraping AI Của Các Trang Web