Студент из Техаса научил нейросеть редактировать видео в реальном времени на RTX 4090
Метод называется Streaming LIPAR, и его ключевая идея позаимствована из классического видеосжатия: если фрагмент кадра почти не изменился по сравнению с предыдущим — не нужно его пересчитывать заново, можно просто пропустить и сэкономить вычисления.
Звучит просто, но на практике реализовать это внутри генеративной модели — отдельная инженерная задача.
Автор метода — Деннис Менн — научил модель определять неизменившиеся участки кадра и пропускать их при обработке, а специальный механизм восстановления не даёт при этом появляться артефактам.
LIPAR работает поверх модели генерации видео Wan2.1 (1.3B параметров) и выдаёт 19.3 кадра в секунду против 12.6 у базовой версии — ускорение в 1.5 раза.📈
Потребление видеопамяти при этом снижается с 20.7 ГБ до 16.6 ГБ, а в слепом тестировании люди в 86.7% случаев не заметили разницы с оригиналом или предпочли результат LIPAR.
☝🏻Важно, что метод не требует никакого дополнительного обучения — он просто подключается к уже существующей модели как надстройка.
Главное ограничение — при сильном движении камеры ускорение падает, потому что между кадрами меняется слишком много фрагментов. 🤷🏼♀️
Весь код проекта выложен в открытый доступ.