ИИ можно «отравить»?
В МИФИ разработали архитектуру нейросети, устойчивой к «отравлениям». Разбираемся, что это значит.
▪️Что такое «отравление данных»?
Это атака на систему машинного обучения. В обучающую выборку незаметно добавляют искаженные примеры, модель учится на них и начинает ошибаться. В реальных задачах точность может падать с 95% до 40%.
▪️Где атаки особенно коварны?
Они опасны для последовательных данных: сетевых логов, финансовых транзакций. Атака растягивается во времени, модель долго выглядит «здоровой», но постепенно принимает неверные решения.
▪️Разве современные ИИ не защищены?
Нет. Даже мощные архитектуры вроде трансформеров, лежащих в основе ChatGPT, уязвимы.
▪️Что предложили ученые МИФИ?
Новую архитектуру — MambaShield. Она умеет отделять полезные данные от вредных прямо в процессе обучения.
▪️Что это значит простыми словами?
Представьте разговор в шумном кафе. Обычный ИИ пытается «услышать» все сразу: звон ложек, музыку, голоса. MambaShield «слушает» только нужный сигнал, отбрасывая шум и атакующие вставки.
▪️За счет чего достигается устойчивость?
В системе объединены три подхода: «учителя» обучают модель защищаться от разных типов атак, алгоритм сам адаптируется к действиям злоумышленника, есть математические гарантии устойчивости. Теоретически доказано, что даже при отравлении 30% обучающих данных, точность останется выше 97%.
▪️Насколько это эффективно?
Эксперименты проводились на трех сложнейших наборах данных о кибератаках, включающих миллионы образцов вредоносного трафика. Они показали впечатляющие результаты: точность — 99,1%, при атаке падение всего на 2–3% (у обычных моделей — до 20%), скорость — в 4,2 раза выше, чем у трансформеров.
▪️Где это пригодится?
Везде, где важна надежность: банки, транспорт, энергетика, включая атомную отрасль.
Подписывайтесь
Telegram | MAX | Вконтакте