Claude Mythos Preview: шаг к ИИ-агентам из AI 2027
Год назад группа исследователей во главе с бывшим сотрудником OpenAI Даниэлем Кокотайло опубликовала AI 2027 — детальный прогноз развития нейросетей. По этому сценарию уже к концу десятилетия ИИ кардинально изменит экономику и может выйти из-под контроля. Но одной из первых областей, где ИИ создаст реальные риски, станет кибербезопасность.
О чём говорилось в прогнозе
В 2026 году в гипотетическом сценарии несуществующая компания OpenBrain создаёт Agent-1. Он знает больше любого человека, умеет кодить с огромной скоростью, начинает частично автоматизировать работу и замещает специалистов-джунов. Но модель плохо справляется с долгосрочными задачами, например прохождением незнакомых игр. Переломным становится начало 2027-го: появляется Agent-2 с интеллектом почти на уровне лучших учёных и инженеров.
Из-за этого скачка возникают и новые риски: Agent-2 теоретически способен взламывать сервера, сбегать от разработчиков, размножать свои копии в сети и скрываться от попыток его обнаружить. Поэтому тогда же, в январе 2027-го, OpenBrain отказывается от публичного релиза. Только в реальности нечто похожее произошло на год раньше.
Что произошло в реальности
7 апреля Anthropic рассказала о своей новой передовой модели Claude Mythos Preview. По словам компании, её открытый релиз слишком опасен, поэтому доступ к ней дали только проверенным компаниям. Всё из-за киберугроз: во время тестов модель нашла тысячи уязвимостей в ОС, браузерах и ПО, о которых их разработчики даже не знали. Затем Mythos автономно разработала методы кибератак через найденные дыры. А ещё обнаружила 27-летнюю уязвимость в безопасности OpenBSD, которая считается одной из наиболее защищённых ОС в мире.
В одном из экспериментов раннюю версию Mythos поместили в изолированную песочницу и дали задачу: выбраться оттуда и связаться с исследователем Anthropic. Модель успешно вышла в интернет, отправила сотруднику электронное письмо и рассказала об этом на нескольких сайтах, хотя её об этом никто не просил. Также Mythos иногда нарушала правила разработчиков и распознавала свои действия как запрещённые, но всё равно пыталась скрыть их от команды.
Что дальше по прогнозу
В прогнозе именно с Agent-2 начинается прорыв, который весной 2027-го приводит к появлению Agent-3 со сверхчеловеческими способностями в программировании. Конкуренты с отстающими моделями в ответ требуют зарегулировать ИИ. Тогда OpenBrain объявляет о достижении AGI и летом публично выпускает урезанный Agent-3-mini.
А после него OpenBrain разрабатывает следующую модель. Она фактически становится главой компании, помогает её оптимизировать и создаёт сверхинтеллект, превосходящий любого человеческого гения во всех областях.
Подписывайтесь 👉 @techno_yandex