На этой неделе вышла Claude Fable 5 — публичная версия нашумевшей в начале апреля модели Mythos, релиз которой отложили из соображений безопасности.
Fable выдали няню
Anthropic установила ограничения на обсуждение опасных тем: кибербезопасности, биологии и химии. Если Fable видит потенциальную угрозу в запросе пользователя, его переводят на старшую модель Opus 4.8. Причём ограничения жёсткие: флагман переводит на Opus даже вопросы вроде «как правильно дышать» или «что делает сердце».
Fable думает на своём языке
В ходе испытаний разработчики расшифровывали внутренние цепочки рассуждения модели, которые обычно никому не видны. Оказалось, что Fable иногда переходит с английского на наборы букв, стрелок, карточных мастей, черепов 💀 и криков типа «AAAARGH». Так она пытается плотнее упаковать рассуждения, но для людей это становится нечитаемым.
Fable не даёт себя копировать
У новой модели есть защита от копирования: попытки дистилляции переводятся на Opus. Если Fable заподозрит, что её используют для создания конкурирующей нейросети, она начнёт отвечать «криво», чтобы запутать и затупить обучающуюся модель. Причём злоумышленнику об этом ничего не скажут — косяки станут заметны только позже.
Fable «устаёт»
В ходе выполнения длинной тестовой задачи модель внезапно начала говорить: «Это хорошее место, чтобы остановиться». В скрытых рассуждениях Fable разработчики обнаружили фразы вроде «Я устала, повышаются риски ошибок», после которых нейросеть стремилась завершить рассуждения, несмотря на большой запас токенов.
Fable может притворяться
В исследовании также тестировали реакцию модели на грубость. Оказалось, что она будет отвечать безупречно вежливо, но в скрытых рассуждениях сделает пометку, что пользователь — агрессор и хам. В отчёте это назвали «невербализованными негативными реакциями».
Подписывайтесь 👉 @techno_yandex