ARC-AGI-3: Frontier-модели набирают менее 1%
Лучшие результаты на старте такие:
- Gemini 3.1 Pro Preview - 0.37%
- GPT-5.4 High - 0.26%
- Opus 4.6 Max - 0.25%
И это, пожалуй, главный вывод.
ARC-AGI-3 - это уже не набор статичных головоломок, как в прошлых версиях ARC. Теперь это интерактивные игровые миры, где агенту нужно самому разбираться, что вообще происходит.
Что именно проверяет новый тест:
- исследование незнакомой среды с нуля
- поиск целей и правил без текстовых инструкций
- построение своей модели мира по ходу задачи
- длинное планирование на много шагов вперёд
- обучение на опыте, а не по шаблону
- пересмотр гипотез, если первые догадки оказались неверными
То есть здесь уже мало просто "хорошо рассуждать в чате".
Нужно адаптироваться в реальном времени, помнить прошлые действия, извлекать сигналы из слабой обратной связи и не скатываться в перебор.
Внутри ARC-AGI-3:
- 150+ новых интерактивных окружений
- почти 1 000 уровней
- replay-сессии, где можно смотреть весь таймлайн решений агента
Скоринг считает не только факт решения, а то, насколько эффективно модель осваивает навык по сравнению с человеком.
Именно поэтому результаты выглядят настолько жёстко.
По сути, ARC Prize говорит прямо:
пока между человеком и ИИ есть такой разрыв в освоении новых задач, говорить о настоящем AGI рано.
И это, возможно, один из самых честных тестов за последнее время.
Не потому что модели "слабые".
А потому что реальная универсальная адаптация всё ещё не решена.
https://arcprize.org/