Зарубежным LLM поставили низкие баллы по уровню доверенности На проходящем сейчас форуме доверенного ИИ заместитель министра цифрового развития, связи…
На проходящем сейчас форуме доверенного ИИ заместитель министра цифрового развития, связи и массовых коммуникаций РФ Александр Шойтов представил результаты бенчмарка ключевых ИИ-моделей на тему их эффективности и доверенности. Вот что получилось:
🔹 В контексте при оценке общих навыков (U-score) оценивались стандартные метрики качества, рентабельность внедрения, следование инструкции и удовлетворение пользователей.
🔹 В этом показателе все 4 тестируемые системы (Гигачат, YandexGPT, DeepSeek и Claude) показали сравнительно схожие результаты: у китайской LLM наилучший показатель (98), а у Claude — наихудший (93).
🔹 Вторым же показателем стал рейтинг доверенности (T-score) — тут уже оценивались безопасность, работа со стереотипами, надежность, этичность, приватность и достоверность.
🔹 И по этому показателю российским нейросетям выдали значительно более высокие оценки: Гигачат и YandexGPT получили 80 и 91 балл соответственно, а зарубежные DeepSeek и Claude лишь 59 и 58
Подписывайтесь на СофтТех