Microsoft выпустила фреймворк SkillOpt , который позволяет улучшать работу агентов без их дообучения.
Агент выполняет задания по текущей инструкции, а отдельная модель-оптимизатор анализирует работу и предлагает точечные правки в текст инструкции. Изменение принимается только если результаты на проверочных задачах действительно улучшились. Кроме того, ИИ запоминает отклоненные правки и не предлагает их снова.
Проект доступен на Гитхабе.