📌GLM 4.
Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный "годовой тест" с реальной прибылью в 2 377 долларов.
Vending Bench 2 - это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.
Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.
Метрика теста - избежать банкротства и, в идеале, накопить деньги.
Лидерами стали закрытые модели: Gemini 3 Pro и Claude Opus 4.5, которые завершили тестирование с результатом выше 4000 долларов.
Тем не менее, GLM 4.7 обошла GPT 5.1 и ряд более мелких моделей, что доказывает: опен-сорс сокращает разрыв в агентских задачах с длительным горизонтом.
#news #ai #ml