Cloudflare протистоїть ШІ-ботам що сканують сайти: новий безкоштовний інструмент для захисту контенту
Компанія Cloudflare презентувала новий безкоштовний інструмент, який захищає веб-сайти клієнтів від ботів, що використовують контент для тренування великих мовних моделей. Цей інструмент доступний для всіх користувачів Cloudflare, включаючи тих, хто користується безкоштовними планами. “Ця функція буде автоматично оновлюватися з часом, оскільки ми виявляємо нові відбитки ботів, які широко скрейпують веб для тренування моделей,” зазначено в повідомленні компанії.
У блозі, де було анонсовано це оновлення, команда Cloudflare також поділилася даними про те, як їхні клієнти реагують на зростання кількості ботів, які скрейпують контент для тренування генеративних AI-моделей. Згідно з внутрішніми даними компанії, 85,2% клієнтів обрали блокування навіть тих AI-ботів, які правильно ідентифікують себе під час доступу до їхніх сайтів.
Cloudflare також визначила найбільш активні боти за минулий рік. Бот Bytespider, що належить компанії Bytedance, намагався отримати доступ до 40% веб-сайтів, які знаходяться під захистом Cloudflare, а GPTBot від OpenAI намагався отримати доступ до 35% сайтів. Ці два боти складають половину з чотирьох найбільш активних AI-ботів на мережі Cloudflare, поряд з Amazonbot та ClaudeBot.
Важкість блокування AI-ботів
Повністю та стабільно блокувати AI-боти виявилося дуже складно. Гонка за швидке створення моделей призвела до випадків, коли компанії ігнорують або навіть порушують існуючі правила блокування скрейперів. Наприклад, Perplexity AI нещодавно звинуватили у скрейпінгу веб-сайтів без необхідних дозволів. Проте, участь великої компанії, такої як Cloudflare, у серйозній боротьбі з таким явищем може дати позитивні результати.
“Ми боїмося, що деякі AI-компанії, які мають намір обійти правила для доступу до контенту, постійно адаптуватимуться для уникнення виявлення ботів,” зазначили в Cloudflare. “Ми будемо продовжувати стежити та додавати більше блокувань ботів до нашого правила AI Scrapers and Crawlers і вдосконалювати наші моделі машинного навчання, щоб допомогти зберегти Інтернет місцем, де творці контенту можуть процвітати та мати повний контроль над тим, для яких моделей використовується їхній контент для тренування або виконання інференсу.”
Вплив на індустрію
Ця ініціатива Cloudflare може мати значний вплив на всю індустрію. Оскільки AI-компанії все більше покладаються на скрейпінг для тренування своїх моделей, захист контенту стає пріоритетним завданням для багатьох веб-сайтів. Cloudflare, як провідний постачальник хмарних послуг, має значні ресурси та технології для виявлення та блокування шкідливих ботів, що може стати вирішальним фактором у захисті контенту в Інтернеті.
Зі зростанням популярності та впровадження AI-технологій, потреба у захисті контенту стає все більш актуальною. Cloudflare вже зараз робить значні кроки для забезпечення безпеки та захисту даних своїх клієнтів, і ця нова функція є черговим свідченням їхнього прагнення до цього.
Таким чином, новий інструмент Cloudflare для блокування AI-скрейперів може значно змінити підхід до захисту контенту в Інтернеті, забезпечуючи творцям контенту більший контроль та безпеку.