Alibaba Qwen3.5-Omni: мультимодальная ИИ нового поколения
Это мультимодальная ИИ-модель нового поколения, которая нативно работает с текстом, изображениями, аудио и видео, а также генерирует речь в реальном времени 🚀
Серия включает три размера Instruct-версий: Plus, Flash и Light, все поддерживают контекст до 256k токенов.
Модель способна нативно принимать на вход более 10 часов аудио или более 400 секунд видео в формате 720p.
По аудио-пониманию, рассуждению, распознаванию, переводу и диалогам модель превосходит Gemini-3.1 Pro, а в аудио-видео понимании выходит на его уровень.
☝🏻☝🏻Одна из ключевых демонстраций — режим Audio-Visual Vibe Coding: пользователь описывает камере свою идею, а Qwen3.5-Omni-Plus в реальном времени генерирует работающий сайт или игру по голосовому описанию с визуальным контекстом.
Фактически это шаг к полноценному мультимодальному взаимодействию, где модель одновременно видит, слышит и программирует. 💬
🔻ИИ также получила семантические прерывания, клонирование голоса и управление голосом — темп, эмоции, громкость, что делает диалог значительно ближе к человеческому.
Распознавание речи теперь охватывает 113 языков и диалектов, а генерация — 36. 🌍
================
👁 News | 👁 Soft | 👁 Hacker