Китайский ИИ GLM-5.1 обогнал западные модели на SWE-Bench Pro
На SWE-Bench Pro, самом жёстком бенчмарке для реальных инженерных задач из GitHub, модель набрала 58,4 балла против 57,7 у GPT-5.4, 57,3 у Claude Opus 4.6 и 54,2 у Gemini 3.1 Pro.
☝🏻☝🏻Это первый китайский ИИ, возглавивший этот лидерборд, и сделано это полностью на чипах Huawei Ascend 910B — без единого ускорителя Nvidia.
Главная фишка GLM-5.1 — способность к долгим автономным задачам до 8 часов подряд.
☝🏻☝🏻☝🏻На демо модель с нуля, без стартового кода и макетов, собрала в браузере полноценный десктоп в стиле Linux: файловый менеджер, терминал, текстовый редактор, монитор системы, калькулятор и даже работающие игры — всё в едином визуальном стиле, через цикл самопроверки и итеративных правок. 🖥
Второй показательный кейс — оптимизация векторной БД на VectorDBBench.
Прошлый рекорд держал Claude Opus 4.6 с 3547 запросов в секунду за 50 ходов.
GLM-5.1 за 600+ итераций и более 6000 вызовов инструментов разогнал результат до 21 500 QPS — примерно в шесть раз больше прежнего рекорда, причём модель сама шесть раз структурно перестраивала стратегию.🤖