Пытаясь найти решение этой проблемы, команда исследователей из Национального исследовательского ядерного университета «МИФИ» (Москва) разработала архитектуру под названием MambaShield.
Большинство современных ИИ-моделей (например, знаменитые Трансформеры, лежащие в основе ChatGPT) обладают фундаментальной уязвимостью перед так называемыми «атаками отравления». Если злоумышленник подмешивает в обучающие данные вредоносные образцы, логика работы модели целенаправленно изменяется, что позволяет провести атаку.
В случае с последовательными данными (логи сети, временные ряды датчиков, финансовые транзакции) атака особенно коварна. Вред наносится не сразу, а растягивается во времени: сначала чуть-чуть, потом еще, и еще, при этом сама модель внешне продолжает функционировать корректно. Классические алгоритмы либо пропускают угрозу, либо требуют огромных вычислительных ресурсов для ее предотвращения.
Ученые МИФИ обратились к новой архитектуре — селективным моделям в пространстве состояний (Selective State Space Models, sSSM). Такие модели, в отличие от классических SSM, способны адаптироваться к входным данным. Модель обучается динамически решать, какую информацию из прошлого контекста сохранить, а какую — отбросить. Эта идея положена в основу архитектуры MambaShield, в которой механизм селекции позволяет эффективно обнаруживать отравленные образцы в массиве обучающих данных.
Представьте, что вы слушаете разговор в шумном кафе. Обычный ИИ пытается уловить и обработать все звуки сразу: звон ложек, музыку, голоса. MambaShield же фокусируется только на словах «нужного собеседника», отфильтровывая злонамеренный шум и атакующие вставки.
Для того чтобы получить модель с заданной устойчивостью к атакам отравления, исследователи «сшили» три инновационные технологии в одну систему:
Эксперименты проводились на трех сложнейших наборах данных о кибератаках (CIC-IoT-2023, CSE-CICIDS2018, UNSW-NB15), включающих миллионы образцов вредоносного трафика. Получены впечатляющие результаты.
«Для практиков это означает меньше пропущенных угроз, меньше ложных тревог и меньшие счета за облачные вычисления», — отмечают авторы.
Конечно, у предлагаемой архитектуры есть и недостатки. Система прекрасно работает на отрезках до 1000 шагов. Но если последовательность слишком длинная (более 5000 шагов), накапливаются ошибки округления, и точность может упасть. Кроме того, если в обучающих данных больше 50–70% отравленных примеров, любая система, включая MambaShield, начнет ошибаться.
Разработка не ограничивается защитой серверов. Предлагаемая архитектура может пригодиться в самых разных областях:
Работа, опубликованная в престижном журнале Expert Systems with Applications, уже получила грант от Министерства экономического развития РФ в рамках программы развития центров искусственного интеллекта.
«MambaShield — это не просто очередной алгоритм, — пишут исследователи. — Это фундамент для доверенного ИИ, который можно устанавливать на атомные станции, в финансовые и медицинские организации, не боясь, что злоумышленник "отравит" обучающую выборку одной хитрой картинкой или пакетом данных».