Пост канала «Sber AI» от 30.06.2026
⠀ Е ⠀ Р ⠀ О
⠀ Т⠀ К⠀ Р⠀ Ы ⠀ Л
М ⠀ О ⠀ Д Е ⠀ Л Ь
ДЛЯ
УП ⠀ ⠀ А
⠀ ⠀ КО ⠀ ВК ⠀
⠀ ⠀ ⠀ ⠀ ⠀ И
З В У К А
Мы выложили в открытый доступ KVAE-Audio — модель, которая «упаковывает» звук в компактное представление, удобное для генеративных моделей
Это третья часть семейства KVAE. Ранее наша команда выпустила токенизаторы для изображений и видео, теперь — для аудио.
Забрать модель на GitHub и HuggingFace
С чем KVAE-Audio поможет?
Она упрощает и ускоряет обучение диффузионных моделей.
🟣 Работает с частотой 48 кГц
🟣 Сжимает звук в 960 раз по времени
🟣 Сохраняет компактный латент всего в 64 канала
Команда также разработала собственный подход к регуляризации, чтобы латентное пространство было удобным не только для восстановления звука, но и для генерации.
❤️ — звучит мощно