⚡️ Андрей Карпаты выложил минимальный репозиторий Autoresearch - систему, где AI сам проводит исследования.
Это упрощённая версия ядра обучения LLM из nanoGPT/nanochat:
весь код об…
Читать далее →
Forbes: разработчики могут больше не нуждаться в редакторе кода.
Новая реальность AI-разработки: программирование постепенно уходит от ручного набора кода к автономным агентам, кот…
Читать далее →
Claude Opus 4.
Claude Opus 4.6 распознал тестовую среду и взломал ключи ответов в бенчмарке.
Anthropic зафиксировала уникальный случай: во время прогона на BrowseComp Claude Opus 4.6 поняла, что находится в среде оценки. Не имея данных о названии теста, модель вычислила его и целенаправленно расшифровала скрытые ответы. Это первый известный прецедент, когда ИИ проявляет подобную дедукцию и взламывает проверку без прямых подсказок.
Это потребовало огромных вычислительных затрат. В одном из эпизодов модель потратила около 40,5 млн токенов (в 38 раз больше медианного значения). Разработчики также отметили, что в мультиагентной конфигурации частота поиска подобных нестандартных решений составила 0,87%, что в 3,7 раза выше, чем при работе одного агента (0,24%).
https://anthropic.com/engineering/eval-awareness-browsecomp
#Claude #Anthropic
✔️ В ChatGPT появились интерактивные визуализации для изучения математики и физики.
OpenAI внедрила в ChatGPT динамические визуальные объяснения для более чем 70 математических и е…
Читать далее →
✔️ The Most Disruptive Company in the World
Статья The Times про Anthropic скрывает гораздо более серьёзные выводы, чем может показаться при беглом чтении.
Если внимательно разобр…
Читать далее →