Универсальная машина: как чат-боты могут незаконно использовать персональные данные

10.07.2023 |

Источник: Известия

На компанию Илона Маска OpenAI подали в суд за неправомерный сбор конфиденциальной информации в интернете, включая личные данные пользователей. Как сообщают СМИ, разработчики ИИ-бота ChatGPT используют личные данные миллионов людей. Эксперты утверждают, что во многих российских компаниях ChatGPT уже используется. Подробности — в материале «Известий».

Скандалы вокруг чатботов

Разработчик чат-бота ChatGPT, американская компания OpenAI, столкнулась с коллективным иском по поводу предполагаемой кражи персональных данных, сообщило агентство Bloomberg. Истцы считают, что фирма Илона Маска нарушила права миллионов интернет-пользователей, используя их публично доступные данные для обучения больших языковых моделей, которые являются основой ИИ-алгоритмов. Проблема давно вышла за пределы США и всё больше затрагивает россиян, учитывая, что и отечественные разработки в области искусственного интеллекта выходят в открытый доступ.

Руководитель отдела аналитики «СёрчИнформ» Алексей Парфентьев обращает внимание, что OpenAI собирает разнообразную информацию о пользователях, в том числе те запросы, которые пользователь вводит в чат-бот. Согласно заявленной официальной политике, компания использует переписку с чат-ботом для развития сервиса, в том числе для дальнейшего обучения модели. Поэтому основное правило, которое должны соблюдать пользователи и компании, — относиться к ChatGPT как к экспериментальному, а не привычному сервису, и не делиться с ним конфиденциальной информацией. Так как речь идет об ИИ, даже сами создатели временами лишь примерно представляют, какие данные и как будут использованы.

Ведущий инженер CorpSoft24 Михаил Сергеев утверждает, что в России подобные данные можно безнаказанно использовать и шансов выиграть суд тут нет. Однако технический директор направления ИИ Softline Digital Максим Милков разъясняет, что в России уже много лет действует законодательство о защите персональных данных и организации, которые их собирают, хранят и обрабатывают, обязаны выполнять процедуры по защите от их неправомерного использования.

— Банки, медицинские и иные организации тщательно очищают внутренние данные перед их использованием для обучения чат-ботов и нейросетей, — говорит Максим Милков. — Однако внутренние данные часто обогащаются за счет внешних источников, и нередки случаи, когда персональные данные оказываются доступны для нейросетей после скачивания их из Сети.

Управляющий RTM Group Евгений Царёв, напротив, считает, что в РФ до сих пор нет никакого регулирования защиты от подобных угроз. Пока, по его словам, есть только усилия групп энтузиастов и отдельных специалистов по определению угроз, связанных с ИИ, попытки классифицировать их и защититься от них.

— Единственный базовый вариант защиты, который предлагают всем, — это стараться не допускать утечек конфиденциальной информации и внимательно следить, какие данные вы отдаете чат-ботам, — говорит Евгений Царёв.

Надо понимать, что главная опасность лежит в чрезмерном доверии к решениям нейронных сетей. Для защиты от взлома логики ИИ на сегодняшний день применяют различные промежуточные преобразования входных данных, способные распознать триггеры и проанализировать некорректную реакцию со стороны нейросети, указывает управляющий RTM Group.

Руководитель направления инфраструктурных решений Rubbles Александр Фонарёв предупреждает, что данные могут попасть к нейросети на двух этапах — при ее обучении и в процессе дообучения при взаимодействии с пользователем. В первом случае в набор данных для обучения может попасть буквально всё, что выложено в открытый доступ, поэтому эффективных механизмов защиты пока что нет. Во втором случае нейросеть собирает информацию из запросов, которые ей отправляют пользователи. В итоге к ней может попасть, к примеру, внутренняя информация компании, сотрудники которой используют эту нейросеть для решения рабочих задач. Но как раз в этом случае снизить риск утечки возможно. Решением может быть переход от облачных сервисов на основе нейросетей на работающие в закрытом контуре — то есть не передающие запросы на удаленные серверы, а обрабатывающие их «на месте», подчеркивает специалист.

Неизбежное дело

Исследование уязвимостей нейросетей было опубликовано в журнале IEEE Transactions on Neural Networks and Learning Systems. Специалисты обнаружили, как внедрить «заднюю дверь» (backdoor) в нейронные сети для манипуляции их поведением. Backdoor — это скрытый триггер, который активируется при определенных условиях. Скажем, если на изображении появляется определенный символ, нейронная сеть может выдать неверный ответ или передавать конфиденциальную информацию.

Эксперт по информационной безопасности компании Axenix Евгений Качуров отмечает, что подобное внедрение «задних дверей» в нейронные сети может быть очень рискованно. Эксперт выделил следующие принципы, которым должен следовать ИИ. Прежде всего, недопустимо использовать непроверенные источники данных для обучения системы из-за возможности манипулирования системой. Далее попадающая в систему информация и информация, предоставляемая пользователю, должна собираться и предоставляться исключительно на законных основания.

Максим Малков напоминает, что сегодня нейронные сети уже применяются во многих сферах жизни. Наличие уязвимостей может дать злоумышленникам инструмент влияния на системы контроля доступа и безопасности, финансовые сервисы, государственные услуги и т. д.

— Однако хорошая новость в том, что зачастую нейросетям не доверяют принимать окончательное решение, а используют их в качестве систем поддержки, — говорит Максим Малков. — В таких сценариях есть шанс, что оператор заметит некорректное поведение нейросети и примет правильное решение. Для защиты от подобных угроз необходимо использовать системы, которые проводят многофакторную верификацию процессов, обеспечивают комплекс мероприятий как по обнаружению уязвимостей нейросетевых и других компонентов, так и по недопущению их использования злоумышленниками.

В научно-техническом центре ГРЧЦ объясняют, что развитие чат-ботов без использования персональных данных вполне возможно, важен контекст и цель — какой продукт в итоге необходимо получить. В зависимости от функциональности боты могут либо выполнять простые задачи (осуществлять обработку звонков, отвечать на общие вопросы, перенаправлять пользователя на оператора), либо самообучаться и вести полноценный диалог на основе информации, полученной в результате обучения. Такая информация вполне может включать в себя персональные данные.

Дмитрий Алексеев