Пост канала «Чёрный Треугольник» от 20.05.2026
Marlin построена поверх базовой модели Qwen3.5-2B и работает в двух режимах.
🔻Первый — caption — возвращает структурированный JSON со сценой и событиями, где каждое действие привязано к временной метке с точностью до секунды.
🔻Второй — find — принимает текстовый запрос на естественном языке и возвращает точные временные границы (start, end) нужного момента в видео.
На бенчмарках модель обходит открытые аналоги в 3–17 раз крупнее — Tarsier-2 7B и Tarsier-2 34B — и приближается к результатам Gemini-1.5-Pro.
Модель доступна на Hugging Face, живое демо развёрнуто на сайте NemoStation.