Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели.
Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей.
Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных.
Исследователи предложили метод Bayesian Teaching:
модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях.
Что получилось:
- LLM начинают лучше обновлять свои предположения, когда получают новую информацию.
- Навык переносится на другие задачи, даже если модель обучали на одном типе задач.
- Улучшается принятие решений в условиях неопределённости.
Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-шопингу, хотя эти задачи сложнее и для них трудно задать точную байесовскую модель.
Главный вывод исследования:
LLM можно учить стратегиям рассуждения, а не только фактам.
И если обучить модель копировать правильную логику (например, байесовскую), она может переносить этот способ мышления на новые задачи.
https://research.google/blog/teaching-llms-to-reason-like-bayesians/