OpenAI официально объяснили, откуда в ChatGPT взялись гоблины Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может…
Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.
После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.
Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.
Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.
Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.
И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.
OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.
В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.
Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.
Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.
Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from