Боты на основе искусственного интеллекта поглощают Википедию и обрушают серверы

Фонд Викимедиа сообщил, что агрессивный сбор данных с помощью систем искусственного интеллекта создает беспрецедентную нагрузку на серверы Википедии и других связанных платформ. К январю 2024 года интернет-трафик вырос на 50%, главным образом из-за активности автоматических программ — так называемых ботов, которые массово скачивают контент для обучения языковых моделей ИИ.

Речь идет о терабайтах информации, включая текстовые статьи, изображения и видеоматериалы, размещённые на платформах Фонда, таких как Wikipedia и Wikimedia Commons — последняя содержит более 144 миллионов медиафайлов с открытой лицензией. На протяжении десятилетий этот контент свободно использовался для учебных, исследовательских и коммерческих целей, становясь базой для интернет-поисковиков, образовательных проектов и энциклопедий. Однако с начала 2024 года крупные технологические компании начали активно использовать прямой доступ к этим данным для масштабной выгрузки материалов, необходимых для «обучения» всё более ресурсоемких ИИ-моделей.

Эта ситуация имеет не только техническое, но и практическое измерение. Например, в декабре 2024 года, после смерти бывшего президента США Джимми Картера, его биографическая статья в Википедии вызвала многомиллионный всплеск просмотров. Однако критическим моментом стало не это, а массовый одновременный просмотр 90-минутного видеозаписи предвыборных дебатов 1980 года, размещённой на Wikimedia Commons. Пиковая нагрузка привела к двукратному увеличению интернет-трафика, вызвав кратковременные сбои в работе нескольких серверов. Инженерам Фонда пришлось в срочном порядке перенаправлять трафик, чтобы минимизировать задержки. Этот инцидент показал более глубокую проблему — основная пропускная способность уже была занята фоновыми запросами со стороны ИИ-ботов.

Анализ внутренних логов Wikimedia подтверждает: поведение ботов резко отличается от человеческого. Тогда как обычные пользователи чаще посещают популярные и закэшированные статьи, боты сканируют весь архив — включая редкие и почти не посещаемые страницы. Это приводит к тому, что серверы вынуждены каждый раз выдавать данные напрямую, в обход систем кэширования, которые рассчитаны на предсказуемую пользовательскую активность.

В итоге на долю ИИ-ботов приходится около 65% самых ресурсоемких запросов к инфраструктуре Wikimedia, несмотря на то, что они генерируют лишь 35% от общего числа просмотров. Эта непропорциональная нагрузка подрывает стабильность работы всей экосистемы.

Дополнительную сложность создает то, что многие боты игнорируют общепринятые правила интернет-этики. Некоторые из них не соблюдают директивы файла robots.txt, предназначенного для ограничения доступа автоматизированных систем, другие маскируются под обычных пользователей, что усложняет их идентификацию и блокировку.

Фонд Викимедиа подчеркивает, что поддержка открытых знаний требует ответственности со стороны разработчиков ИИ. Без прозрачных механизмов взаимодействия и согласованных технических стандартов будущее свободных ресурсов может оказаться под угрозой.

Тема: