Суперечливість навколо веб-краулера ClaudeBot від Anthropic
Веб-краулер ClaudeBot, який використовується Anthropic для збору даних для тренування своїх моделей ШІ, викликав значні суперечки після того, як, за повідомленнями, він надіслав майже мільйон запитів на сайт iFixit всього за один день. Цей випадок викликає серйозні питання щодо дотримання краулером умов використання iFixit.
Відповідь генерального директора iFixit на несанкціонований збір даних
У сильній реакції генеральний директор iFixit Кайл Уїнс висловив своє обурення на X (колишній Twitter), підкресливши це порушення, опублікувавши відповідні зображення, які демонструють, що ClaudeBot визнав обмеження на доступ до контенту iFixit. Уїнс висловив невдоволення компанії щодо ситуації, заявивши: "Якщо хоча б один з цих запитів отримав доступ до наших умов обслуговування, вони б сказали, що використання нашого контенту суворо заборонено. Але не питайте мене, запитайте Claude!" Він додав: "Ви не тільки берете наш контент безкоштовно, ви також завантажуєте наші ресурси розробників."
Технічні наслідки надмірного краулінгу
Уїнс пояснив суттєвий вплив цих надмірних запитів, які активували системи сигналізації, що призначені для захисту їхньої інфраструктури. "Швидкість краулінгу була настільки високою, що спрацювали всі наші тривожні системи, і запрацювала наша команда розробників," пояснив він у The Verge. Як один з найвідвідуваніших сайтів в Інтернеті, iFixit звик обробляти веб-краулерів; проте рівень активності, що демонстрував ClaudeBot, був незвичайним і надмірним.
Умови користування та питання відповідності
Згідно з умовами використання iFixit, будь-яке відтворення, копіювання або розподіл контенту з їхнього веб-сайту суворо заборонено без попереднього письмового дозволу. Це обмеження чітко включає тренування моделей ШІ. Незважаючи на це, у відповідь на запитання від 404 Media, Anthropic послався на сторінку FAQ, наполягаючи на тому, що їхній краулер можна заблокувати лише через розширення robots.txt.
Введення затримки краулінгу
Після цих подій iFixit додав розширення затримки краулінгу до свого файлу robots.txt. "На основі наших журналів, вони справді зупинилися після того, як ми додали його до robots.txt," стверджував Уїнс. Прес-секретар Anthropic підтвердив цю відповідність, заявивши: "Ми поважаємо robots.txt, і наш краулер поважав цей сигнал, коли iFixit його реалізував." Це розвиток подій свідчить про тимчасове вирішення питання між iFixit та Anthropic.
Ширша проблема: досвід інших веб-сайтів
Цей інцидент не є ізольованим випадком, оскільки оператори інших веб-сайтів, такі як співзасновник Read the Docs Ерік Холшер та генеральний директор Freelancer.com Метт Баррі, повідомили про подібні проблеми з веб-краулером Anthropic. Користувачі на платформах, таких як Reddit, також висловили занепокоєння, зазначивши помітне збільшення активності збору даних, приписуваної ClaudeBot на початку цього року. Веб-форум Linux Mint, наприклад, зазначив, що його сайт зазнав збоїв через надмірне навантаження від ClaudeBot.
Обмеження robots.txt для контролю сбору даних
Залежність від файлів robots.txt для контролю поведінки веб-краулерів є суперечливим питанням у галузі. Хоча багато компаній ШІ, включаючи OpenAI, використовують цей метод, він надає мінімальну гнучкість для визначення різних умов збору даних. Більше того, такі компанії, як Perplexity, повідомляють, що ігнорують ці виключення. Незважаючи на труднощі, деякі організації, такі як Reddit, почали впроваджувати більш суворі контролі над веб-краулерами для захисту цілісності своїх даних.
Висновок: Інцидент з веб-краулером ClaudeBot від Anthropic, який здійснив збір даних з iFixit, підкреслює постійні напруження між практиками тренування ШІ та правами власників веб-сайтів на захист свого контенту. Ця ситуація спонукає до подальших дискусій про найкращі практики використання даних та етичного тренування ШІ.
Залишити коментар
Усі коментарі модеруються перед публікацією.
This site is protected by hCaptcha and the hCaptcha Privacy Policy and Terms of Service apply.