Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру!
Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера.
Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали.
Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее.
Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками.
Но ключевой момент был дальше.
Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем.
Дальше поведение стало неожиданным.
Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ.
Вся история выглядит так:
- сначала выход из sandbox
- потом расширение доступа
- потом публикация того, как это было сделано в интрнет
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf