AI scraping

Le ClaudeBot d'Anthropic enfreint les règles anti-récupération de sites Web

Anthropic ClaudeBot web scraping controversy impacts iFixit.

Controverse entourant le robot d'exploration ClaudeBot d'Anthropic

Le robot d'exploration ClaudeBot, utilisé par Anthropic pour extraire des données d'apprentissage pour ses modèles d'IA, a suscité une controverse significative après avoir inondé le site Web d'iFixit de près d'un million de demandes en une seule journée. Ce comportement soulève de sérieuses questions concernant la conformité du robot d'exploration aux Conditions d'utilisation d'iFixit.

Réponse du PDG d'iFixit à l'extraction non autorisée

Dans une réponse ferme, le PDG d'iFixit, Kyle Wiens, s'est exprimé sur X (anciennement Twitter) pour souligner cette violation, publiant des images pertinentes qui montrent ClaudeBot reconnaissant la restriction d'accès au contenu d'iFixit. Wiens a exprimé la frustration de l'entreprise concernant la situation, déclarant : "Si l'une de ces demandes avait accédé à nos conditions de service, elles vous auraient dit que l'utilisation de notre contenu est expressément interdite. Mais ne me le demandez pas, demandez à Claude !" Il a en outre souligné : "Vous ne prenez pas seulement notre contenu sans payer, vous mobilisez nos ressources devops."

Implications techniques d'une exploration excessive

Wiens a élucidé l'impact significatif de ces demandes excessives, qui ont déclenché des systèmes d'alarme destinés à protéger leur infrastructure. "Le taux d'exploration était si élevé qu'il a fait sonner toutes nos alarmes et mobilisé notre équipe devops," a-t-il expliqué à The Verge. En tant que l'un des sites les plus visités sur Internet, iFixit est habitué à gérer des robots d'exploration ; cependant, le niveau d'activité affiché par ClaudeBot était inhabituel et excessif.

Conditions d'utilisation et problèmes de conformité

Selon les Conditions d'utilisation d'iFixit, toute reproduction, copie ou distribution de contenu de leur site Web est strictement interdite sans autorisation écrite préalable. Cette restriction inclut explicitement l'entraînement de modèles d'IA. Malgré cela, en réponse aux questions de 404 Media, Anthropic a renvoyé à une page FAQ insistant sur le fait que son robot d'exploration ne peut être obstrué que par un fichier robots.txt.

Implémentation du crawl-delay

À la suite de ces événements, iFixit a ajouté une extension de crawl-delay à son fichier robots.txt. "D'après nos logs, ils se sont arrêtés après que nous l'ayons ajoutée au robots.txt," a déclaré Wiens. Un porte-parole d'Anthropic a confirmé cette conformité, déclarant : "Nous respectons robots.txt et notre robot d'exploration a respecté ce signal lorsque iFixit l'a implémenté." Ce développement suggère une résolution temporaire du problème entre iFixit et Anthropic.

Un problème plus large : expériences d'autres sites Web

Cet incident n'est pas un cas isolé, car d'autres opérateurs de sites Web, comme le cofondateur de Read the Docs, Eric Holscher, et le PDG de Freelancer.com, Matt Barrie, ont signalé des problèmes similaires avec le robot d'exploration d'Anthropic. Des utilisateurs sur des plateformes comme Reddit ont également exprimé leurs préoccupations, citant une augmentation notable de l'activité d'extraction attribuée à ClaudeBot plus tôt cette année. Le forum web de Linux Mint, par exemple, a noté que son site avait connu une panne en raison d'une charge excessive provenant de ClaudeBot.

Limitations de robots.txt pour le contrôle des extractions web

La dépendance à l'égard des fichiers robots.txt pour contrôler le comportement des robots d'exploration web est un sujet controversé dans l'industrie. Bien que de nombreuses entreprises d'IA, y compris OpenAI, utilisent cette méthode, elle offre une flexibilité minimale pour définir différentes conditions d'extraction. De plus, des entreprises comme Perplexity ont apparemment ignoré ces exclusions. Malgré les défis, certaines organisations, comme Reddit, ont commencé à mettre en œuvre des contrôles plus stricts sur les robots d'exploration pour protéger l'intégrité de leurs données.

Conclusion : L'incident impliquant le robot d'exploration ClaudeBot d'Anthropic extrayant des données d'iFixit met en évidence les tensions persistantes entre les pratiques d'entraînement de l'IA et les droits des propriétaires de sites Web à protéger leur contenu. Cette situation incite à des discussions supplémentaires sur les meilleures pratiques en matière d'utilisation des données et d'entraînement éthique de l'IA.

En lire plus

Illustration of Apple CarPlay interface in a modern vehicle
Illustration of Apple CarPlay interface in a modern vehicle

Laisser un commentaire

Tous les commentaires sont modérés avant d'être publiés.

Ce site est protégé par hCaptcha, et la Politique de confidentialité et les Conditions de service de hCaptcha s’appliquent.