ИИ заговорил на адыгейском Адыгейский только что вошёл в «Яндекс Переводчик».
Адыгейский только что вошёл в «Яндекс Переводчик». 14-й язык народов России в сервисе. Для носителей — удобно. Для нас — окно внутрь того, как вообще обучают ИИ на «маленьких» языках. Потому что нейросеть не «выучивает» язык в школьном смысле. Она делает три вещи.
Шаг 1. Корпус — это не спортзал
Корпус (собрание текстов) — основа основ. Для адыгейского его собирали лингвисты Адыгейского госуниверситета. Газеты, художественная литература, фольклор — всё, что есть в оцифрованном виде.
Объём адыгейского корпуса: около 11 миллионов словоупотреблений. Для сравнения: корпуса английского языка исчисляются миллиардами. Нейросеть учится на том, что есть. Если текстов мало — качество перевода страдает.
Шаг 2. Разметка: когда каждое слово получает паспорт
Просто скормить нейросети миллион предложений недостаточно. Каждое слово нужно разметить: указать его лемму (начальную форму), часть речи, падеж, число, время.
Это делают лингвисты. Вручную или с помощью автоматических алгоритмов с последующей проверкой. Для адыгейского — языка с богатой морфологией — процесс особенно трудоёмкий.
Шаг 3. Векторные представления: как ИИ «понимает» смысл
Финальный этап. Нейросеть преобразует слова в многомерные векторы — числа, отражающие семантику. «Собака» и «кошка» оказываются рядом, «собака» и «танк» — далеко.
После этого модель способна переводить, даже если конкретное сочетание слов не встречалось в обучающей выборке. Она улавливает закономерности.
Смотрим шире
В «Яндекс Переводчике» уже 22 языка народов России . Осетинский, татарский, якутский, чувашский, чеченский, бурятский, а теперь и адыгейский.
Цель — зафиксировать языки в цифровом пространстве. Пока есть корпуса, разметка и нейросети, язык живёт. Им можно пользоваться в телефоне, переписываться, читать новости. ИИ здесь — не замена человеку, а инструмент консервации. Лингвистический «сухой лёд», который не даёт языку раствориться в глобализации .
Технически это суверенный ИИ: модели российские, инфраструктура отечественная, данные никуда не утекают. Но пользователю важно другое: нейросеть только что научилась делать то, что год назад было невозможно. Адыгейский — в телефоне. И это не магия, а лингвистика, большие данные и тысячи часов разметки.
Такие новости с пленарного заседания, III Стратегическая сессия «Информационные технологии и языки народов России