Коллапс модели: как ИИ деградирует на синтетических данных
Чтобы проверить это, исследователи из Оксфорда, Кембриджа и Торонто провели эксперимент. Они дообучили модель на Википедии, попросили сгенерировать новые тексты, на них обучили следующую версию нейросети — и так по кругу. Уже на девятом прогоне модель в ответ на запрос про церковную архитектуру начала писать о зайцах с синими и красными хвостами. Этот эффект, когда ИИ с каждым новым циклом обучения искажает синтетические данные, назвали коллапсом модели.
Но позднее исследование раскритиковали: ведь в реальности разработчики не используют полностью синтетические тексты. Обычно их добавляют к человеческим — и тогда вероятность ошибок, приводящих к коллапсу, снижается. В 2025-м другая группа исследователей посвятила этому отдельный эксперимент. Она обнаружила, что обучение модели ускоряется в разы, если датасет на две трети состоит из обычных данных и на треть — из переписанных нейросетью. Всё потому, что сгенерированный текст чище и структурированнее, а живые данные сохраняют разнообразие языка.
Поэтому созданные человеком тексты всё ещё остаются стратегическим ресурсом. А компании активно закупают архивы газет, заключают контракты с платформами типа Reddit и нанимают экспертов для написания текстов на узкие темы.
Впрочем, сегодня развитие моделей всё меньше сводится к тому, чтобы просто скормить им больше текстов. Значительная часть прогресса приходит из обучения рассуждениям — в том числе через синтетические задачи и обучение с подкреплением (RL). Поэтому дефицит человеческих текстов остаётся проблемой, но уже не выглядит таким жёстким потолком, как казалось раньше.
Подписывайтесь 👉 @techno_yandex