ИИ-модель Яндекса решила проблему генерации изображений с русским текстом Яндекс выкатил обновление своей генеративной модели Alice AI ART, в котором …
Яндекс выкатил обновление своей генеративной модели Alice AI ART, в котором главным фокусом стала работа с кириллицей — для нейросетей это исторически сложная задача, поскольку буквы для них не отдельные символы, а часть пиксельного полотна. В открытых данных кириллица представлена крайне слабо, а изображения с русским текстом в большинстве своём низкого качества — добавишь их в обучение «как есть», и просядет общее визуальное качество генерации.
Что сделали в Яндексе:
🔹 Собрали собственный набор данных «изображение — кириллический текст» с разметкой букв и символов: 30 млн примеров для обучения и ещё ~100 тыс. отобранных картинок для настройки. Данные подбирали так, чтобы модель видела больше разных букв, слов и сочетаний — это помогает ей точнее писать на кириллице.
🔹 Обновили архитектуру модели, чтобы лучше ловить пространственные связи между разными частями изображения, что критично для длинных надписей.
🔹 Заменили модуль, с которым модель точнее считывает смысл фраз и лучше работает с русским языком: раньше запрос фактически проходил через перевод с английского, а теперь модель понимает его напрямую.
🔹 Внедрили модуль, который уточняет слишком общие запросы. Например, «наша столица» автоматически превращается в «Москва, Кремль, Красная площадь».
По результатам внутренних замеров точность генерации текста на русском выросла в 3 раза, общее качество картинок (доля без визуальных искажений) — на треть, понимание культурного кода — до 85% (на уровне топовых индустриальных решений). По доле успешных генераций кириллического текста Alice AI ART показывает лучшие результаты среди российских моделей, а фразы из 7–9 слов теперь генерируются корректно в большинстве случаев — там, где некоторые конкуренты продолжают спотыкаться
Подписывайтесь на СофтТех