Пост канала «Чёрный Треугольник» от 28.05.2026
🔻На SWE-Bench Pro (решение сложных задач программирования) модель набирает рекордные 69,2%, обходя предшественника Opus 4.7 с 64,3%, а также конкурентов в лице GPT-5.5 от OpenAI (58,6%) и Gemini 3.1 Pro от Google (54,2%).
🔻В тесте на многодисциплинарное рассуждение Humanity's Last Exam новинка показывает 49,8% без инструментов и 57,9% с инструментами — выше всех трёх соперников.
🔻А в агентском управлении компьютером (OSWorld-Verified) Opus 4.8 достигает 83,4%, опережая и Opus 4.7, и обоих конкурентов.
☝🏻☝🏻Главная ставка релиза — на автономную работу.
В Claude Code модель, по словам компании, «принимает решения как опытный инженер, не нуждаясь в постоянных проверках», удерживая курс на протяжении долгих сессий и доводя работу в репозитории до конца.
Вместе с моделью выкатили режим dynamic workflows для Claude Code — пока в статусе research preview.
Claude составляет план, затем запускает сотни параллельных субагентов в рамках одной сессии (а с Opus 4.8 агенты могут работать ещё дольше) и проверяет результаты, прежде чем отчитаться перед пользователем.
На практике это означает, что Claude Code с Opus 4.8 теперь способен проводить миграции масштаба всей кодовой базы — сотни тысяч строк кода от запуска до слияния, опираясь на существующий набор тестов как на планку качества.
☝🏻Отдельный акцент сделан на честности модели.
Anthropic называет Opus 4.8 своей «самой честной» моделью:
Opus 4.8 примерно вчетверо реже предшественника пропускает дефекты в написанном коде без предупреждения пользователя
☝🏻☝🏻Появились и новые настройки управления.
Пользователи claude ai теперь могут контролировать, сколько усилий Claude вкладывает в задачу, а быстрый режим для Opus 4.8 — где модель работает в 2,5 раза быстрее — стал втрое дешевле, чем у предыдущих моделей.
При этом по умолчанию модель работает в режиме «высоких усилий», который, по мнению Anthropic, даёт лучший баланс качества и удобства.
☝🏻☝🏻☝🏻НО режим «высоких усилий» тратит больше токенов.
На задачах по программированию режим «высоких усилий» расходует примерно столько же токенов, сколько дефолтный режим Opus 4.7, но даёт лучший результат. То есть относительно предыдущего поколения это не подорожание.
Дороже становится, если подняться выше. Пользователи могут выбрать «extra» (в Claude Code это «xhigh») или «max» — тогда модель тратит больше токенов ради лучшего результата.
Anthropic рекомендует «extra» для сложных задач и долгих асинхронных процессов.
В обратную сторону это тоже работает: на пониженных уровнях усилий Claude отвечает быстрее и медленнее расходует лимиты.
☝🏻☝🏻Цена за токены остается прежней.
Компания также намекнула, что вскоре завершит превью-период более мощной модели Mythos и рассчитывает вывести модели этого класса для всех клиентов в ближайшие недели.