☝🏻NVIDIA представила LocateAnything — ИИ-модель визуального распознования, которая умеет находить и локализовать объекты на изображениях по текстовому…
LocateAnything построена на принципиально новом подходе — Parallel Box Decoding (PBD).
Если раньше визуально-языковые модели генерировали координаты ограничивающих рамок последовательно, токен за токеном, то PBD предсказывает всю рамку целиком за один шаг.
Это позволяет кратно ускорить процесс декодирования.📈
Модель работает в трёх режимах:
▫️Fast Mode для максимальной скорости,
▫️Slow Mode для максимальной точности,
▫️Hybrid Mode, который автоматически переключается между ними при обнаружении сложных или неоднозначных сцен.⚡️
LocateAnything в 10 раз быстрее текстового Qwen3-VL и в 2,5 раза быстрее квантизированного Rex-Omni.
Модель уже интегрирована в продуктовые визуально-языковые модели NVIDIA — в частности, в Nemotron 3 Nano Omni, где обеспечивает пространственное понимание для мультимодальных агентных систем.
Параллельно была представлена и 3D-версия — LocateAnything3D, способная определять положение, размер и ориентацию объектов в трёхмерном пространстве по одному RGB-изображению.🤖
LocateAnything доступна в открытом доступе на Hugging Face.
Запустить можно, и довольно легко даже на домашнем компьютере.💻