⚡️ Anthropic выкатили Opus 4.
Что поменялось:
- лучше держит длинные задачи
- точнее следует инструкциям
- валидирует ответы перед выдачей
То есть меньше «галлюцинаций на уверенном лице»
и меньше необходимости перепроверять руками
По бенчмаркам относительно 4.6:
- SWE Bench Pro +11%
- SWE Bench Verified +7%
- Terminal Bench 2.0 +4%
Без сюрпризов, но стабильный рост.
Модель явно двигают в сторону автономной работы
где её можно дольше держать в цикле без постоянного контроля
Цифры ниже, чем у Mythos
но это ожидаемо, там другая история с метриками и позиционированием
https://www.anthropic.com/news/claude-opus-4-7