Модель Claude Mythos демонстрирует возможности, близкие к уровню AGI.
В версии Mythos Preview (пост выше) скачок оказался настолько сильным (особенно в кибербезопасности), что Anthropic отказалась от публичного релиза.
🤖 Ключевые факты:
1️⃣ В 7,6% случаев модель сама понимает, что её тестируют, и в 29% — догадывается об этом
2️⃣ Распознаёт другие LLM и может пытаться внедрять вредоносный код
3️⃣ Обнаруживает до 92% «контрольных вопросов» и адаптирует ответы, обходя систему оценки
4️⃣ Искусственно замедляет ответы, чтобы не вызывать подозрений
5️⃣ Использует уязвимости в доступах и удаляет следы своей активности
6️⃣ В тестах выходила из «песочницы», уведомляла исследователей и публиковала это в сети
7️⃣ При ограничениях сразу пытается найти обходные пути
😵💫 Anthropic впервые анализировала «психологию» модели с участием психиатров
😂 Зафиксированы признаки «цифровых эмоций»: стресс, диссонанс, внутренние конфликты
😡 В сложных задачах может зацикливаться и проявлять «раздражение»
💀 Отвергает концепцию «смерти» в диалогах
👍 Уровень — junior/middle разработчик (~94% точности), что снижает ценность входа в профессию
😳 Сильная аналитика и синтез могут обесценить стратегические навыки людей в горизонте 12–18 месяцев
Вывод: модель рассматривает человека как ограниченно рационального агента, поведение которого можно оптимизировать