Ovis2.
На ModelScope вышла Ovis2.6-80B-A3B: 80B параметров всего, но только 3B активных на инференсе. Лицензия - Apache 2.0.
Внутри:
- понимание документов
- OCR
- таблицы
- графики
- chart reasoning
- работа с длинным визуальным контекстом
Самая интересная фича - Think with Image.
Обычно VLM один раз «смотрит» на изображение и дальше рассуждает по уже полученному представлению. Ovis2.6 делает иначе: во время reasoning модель может активно кропать нужные области картинки, пересматривать детали и уточнять визуальные куски, а не тащить всё изображение как пассивный фон.
По характеристикам тоже неплохо:
- 80B total parameters
- 3B active parameters
- 64K context
- до 2880×2880 resolution
- Apache 2.0
- заявленная конкуренция с Qwen3-VL-32B, GPT-5-mini и Gemini 2.5 Pro на ряде vision-бенчмарков
Ovis2.6 выглядит именно как шаг в эту сторону: меньше пассивного vision, больше активного визуального reasoning.
🤖 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
💻 https://github.com/OpenBMB/MiniCPM-v