NVIDIA открыла SANA-WM — world model на 2,6 млрд параметров для генерации 60-секундного видео.
Модель управляется тремя входами: одним изображением, текстовым промптом и траекторией камеры. Ключевой тезис релиза — выполнение на одном GPU при нативной подготовке именно к длинным роликам, а не к коротким клипам.
Практический акцент на controllable worlds: разработчик может задавать не только сцену, но и динамику обзора, что важно для симуляций, синтетических датасетов и быстрого прототипирования визуальных пайплайнов.