ClaudeBot de Anthropic viola las reglas anti-scraping de sitios web

Controversia en torno al rastreador web ClaudeBot de Anthropic

El rastreador web ClaudeBot, utilizado por Anthropic para recopilar datos de entrenamiento para sus modelos de IA, ha provocado una controversia significativa después de que se informó que bombardeó el sitio web de iFixit con casi un millón de solicitudes en un solo día. Este comportamiento plantea serias preguntas sobre la conformidad del rastreador con los Términos de uso de iFixit.

Respuesta del CEO de iFixit ante la extracción no autorizada

En una respuesta contundente, el CEO de iFixit, Kyle Wiens, acudió a X (anteriormente Twitter) para resaltar esta violación, publicando imágenes pertinentes que demuestran que ClaudeBot reconocía la restricción de acceder al contenido de iFixit. Wiens expresó la frustración de la empresa respecto a la situación, afirmando: "Si alguna de esas solicitudes accedió a nuestros términos de servicio, te habrían dicho que el uso de nuestro contenido está expresamente prohibido. ¡Pero no me preguntes a mí, pregúntale a Claude!" Además, enfatizó: "No solo estás tomando nuestro contenido sin pagar, estás ocupando nuestros recursos de devops."

Implicaciones técnicas de un rastreo excesivo

Wiens elaboró sobre el impacto significativo de estas solicitudes excesivas, que activaron sistemas de alarma destinados a proteger su infraestructura. "La tasa de rastreo fue tan alta que disparó todas nuestras alarmas y movilizó a nuestro equipo de devops," explicó a The Verge. Como uno de los sitios más visitados en Internet, iFixit está acostumbrado a manejar rastreadores web; sin embargo, el nivel de actividad exhibido por ClaudeBot era inusual y excesivo.

Términos de uso y problemas de conformidad

Según los Términos de uso de iFixit, cualquier reproducción, copia o distribución de contenido de su sitio web está estrictamente prohibida sin permiso escrito previo. Esta restricción incluye explícitamente el entrenamiento de modelos de IA. A pesar de esto, en respuesta a consultas de 404 Media, Anthropic se refirió a una página de preguntas frecuentes insistiendo en que su rastreador solo puede ser obstruido a través de una extensión de archivo robots.txt.

Implementación de Crawl-Delay

Tras estos eventos, iFixit ha añadido una extensión de crawl-delay a su archivo robots.txt. "Según nuestros registros, dejaron de rastrear después de que lo añadimos al robots.txt," afirmó Wiens. Un portavoz de Anthropic confirmó esta conformidad, declarando: "Respetamos robots.txt y nuestro rastreador respetó esa señal cuando iFixit la implementó." Este desarrollo sugiere una resolución temporal al problema entre iFixit y Anthropic.

Un problema más amplio: experiencias de otros sitios web

Este incidente no es un caso aislado, ya que otros operadores de sitios web, como el cofundador de Read the Docs, Eric Holscher, y el CEO de Freelancer.com, Matt Barrie, han informado problemas similares con el rastreador web de Anthropic. Los usuarios en plataformas como Reddit también han expresado preocupaciones, citando un aumento notable en la actividad de extracción atribuida a ClaudeBot a principios de este año. El foro web de Linux Mint, por ejemplo, señaló que su sitio experimentó una caída debido a la carga excesiva de ClaudeBot.

Limitaciones de robots.txt para el control de la extracción web

La dependencia de archivos robots.txt para controlar el comportamiento de los rastreadores web es un tema controvertido dentro de la industria. Si bien muchas empresas de IA, incluida OpenAI, emplean este método, ofrece flexibilidad mínima para definir diferentes condiciones de extracción. Además, empresas como Perplexity han ignorado estas exclusiones de manera contundente. A pesar de los desafíos, algunas organizaciones, como Reddit, han comenzado a implementar controles más estrictos sobre los rastreadores web para proteger la integridad de sus datos.

Conclusión: El incidente que involucra a ClaudeBot de Anthropic scraping a iFixit destaca las tensiones en curso entre las prácticas de entrenamiento de IA y los derechos de los propietarios de sitios web para proteger su contenido. Esta situación urge a una mayor discusión sobre las mejores prácticas para el uso de datos y el entrenamiento ético de IA.