Pull to refresh

Роскомнадзор порекомендовал хостинг-провайдерам РФ ограничить сбор информации с российских ресурсов иностранными ботами

Reading time4 min
Views2.7K

Роскомнадзор порекомендовал хостинг-провайдерам из реестра ведомства, которым разрешено официально оказывать услуги в РФ. ограничить сбор информации с российских ресурсов иностранными ботами, включая поисковые и веб-сканеры Google, OpenAI и Apple. В ближайшее время провайдеры в РФ должны провести анализ рисков на своих сетях и в случае обнаружения применить новые правила блокировки ботов.

В СМИ ознакомились с письмом, направленным Центром управления связью общего пользования (ЦМУ ССОП) Роскомнадзора компаниям из реестра провайдеров хостинга в конце апреля. Документ содержит рекомендации по настройке ограничений доступа поисковых ботов к информации на российских сайтах. Источник СМИ на рынке интернет-провайдеров объяснил, что речь идёт об иностранных ботах, в том числе поисковых сервисов Google (Googlebot) или GPTBot компании OpenAI, Apple Bot компании Apple и других подобных системах.

По данным СМИ, эти боты, в автоматическом режиме посещающие веб-сайты, используются для их индексации поисковиками, в интернет-рекламе, для сбора данных для обучения нейросетей и тому подобное. Технически такие системы могут мимикрировать под обычных посетителей сайтов, однако легитимные боты отправляют владельцам веб-сайтов идентификатор, позволяющий выявлять его предназначение. Например, «Яндекс» использует YandexBot для индексации сайтов в целом, YandexImages — для индексации изображения для поиска по картинкам и так далее.

Ограничение доступа иностранных ботов к российским сайтам, согласно пояснению из письма ЦМУ ССОП, необходимо для исключения сбора данных о критических уязвимостях российских ресурсов, индексировании данных россиян и анализа собранной информации.

Согласно рекомендациям ЦМУ ССОП, российским провайдерам «необходимо провести анализ рисков в своей зоне ответственности и при их обнаружении применить правила блокировки сбора сведений поисковыми ботами». В письме ЦМУ ССОП приведён и список идентификаторов (User-agent), по которым можно отличить вредоносных роботов и сканеры уязвимостей (642 идентификатора). Эксперты СМИ уточнили, что список, разосланный Роскомнадзором провайдерам, совпадает с публично доступным перечнем, опубликованным на сервисе GitHub.

Получение письма от ЦМУ ССОП СМИ подтвердили в DDoS-Guard и сообщили, что принимают его к сведению. В компании рассказали, что на данный момент в «реестр блокировок» Роскомнадзора указанные боты не включены. «Сама процедура блокировок очень формализована», — рассказал СМИ ведущий юрист DDoS-Guard Кирилл Приходько.

Собеседник СМИ в крупной IT-компании отметил, что список приведённых в письме идентификаторов «очень большой, и их блокировка может повлиять на стабильность работы IT-систем». Однако он считает, что компании, которые видят актуальными для себя риски со стороны зарубежных ботов, начнут использовать практику их массовой блокировки.

Гендиректор хостинг-провайдера RUVDS Никита Цаплин допускает, что в перспективе рекомендации Роскомнадзора могут стать требованиями. Он предупреждает, что сбор информации и для чат-ботов, и для пользователя, делающего запрос в адресной строке браузера, осуществляют одни и те же роботы: «Следовательно, организация, которая выполнит рекомендацию, лишит себя возможности индексироваться в Google». Для крупных компаний это серьёзный риск, особенно с учётом конкуренции за трафик: если его часть уйдёт из Google, то бизнесу придётся компенсировать долю «переходов» на сайты через доступные поисковики, говорит господин Цаплин. Собеседник СМИ в другом хостинг-провайдере считает, что блокировка особенно отразится на компаниях, работающих в странах СНГ, где позиции Google выше поисковика «Яндекс».


С 1 февраля 2024 года в России запретили работу хостинг-провайдеров и организаций в сфере связи, не вошедших в специальный реестр Роскомнадзора. Теперь деятельность компаний не из реестра РКН считается незаконной, они не могут легально оказывать свои услуги хостинга текущим и новым клиентам на территории РФ. Все хостинг-провайдеры не из реестра должны подать в РКН уведомление о начале своей деятельности до того, как начнут оказывать услуги в РФ. Заявка на вхождение в реестр рассматривается ведомством в течение 15 рабочих дней.

В конце декабря 2023 года ФГУП «Главный радиочастотный центр» (ГРЧЦ, входит в структуру Роскомнадзора) разослал российским хостинг-провайдерам письма с рекомендациями по выявлению и блокировке бота GPTBot компании OpenAI.

В письме от ведомства говорится о необходимости оценить риски сбора информации об уязвимости ресурсов или «иной чувствительной информации, в том числе содержащей персональные данные», которые может просканировать GPTBot. В случае выявления таких рисков ГРЧЦ указывает на необходимость заблокировать обращения бота. Ведомство также направило инструкцию хостинг-провайдерам о том, как сделать необходимые блокировки против GPTBot.

Сотрудник дежурной смены центра мониторинга и управлению сетью связи общего пользования (ЦМУ ССОП) ГРЧЦ по телефону подтвердил СМИ отправку такого письма. В Роскомнадзоре отказались от комментариев. В хостинг-провайдерах Beget и Rusonyx не ответили СМИ. В Координационном центре доменов .RU/.РФ сообщили, что не получали письмо.

GPTBot функционирует как веб-сканер в интернете в рамках работы по поиску данных для повышения безопасности, улучшению возможностей и точности искусственного интеллекта ChatGPT. Бот от OpeanAI идентифицирует себя с помощью токена агента пользователя GPTBot и user-агента: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot).

Ранее OpenAI выпустила инструкцию для веб-разработчиков как ограничить или заблокировать GPTBot, чтобы исключить сайт из сбора данных для обучения ChatGPT. Дополнительно OpenAI для верификации предоставляет список IP-адресов, с которых происходят обращения GPTBot.

В начале октября Google представила токен Google-Extended для файла robots.txt, который указывает сканерам Google включить сайт в поиск, но не разрешает использовать сайт для обучения системам ИИ, подобным тем, которые лежат в основе чат-бота Bard и Vertex AI, в том числе и для будущих поколений ИИ-моделей компании.

Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
+9
Comments1

Other news