✔️ Microsoft опенсорснула семейство эмбеддингов Harrier.
Harrier-OSS-v1 - линейка мультиязычных моделей для векторизации текста. Они используются для информационного поиска, кластеризации, классификации текстов и оценки семантической близости. Семейство выбило SOTA-рекорд в бенчмарке Multilingual MTEB v2.
Флагманская модель на 27 млрд. параметров и компактная на 270 млн. построены на архитектуре Gemma 3, а средняя версия на 600 млн. параметров использует базу Qwen 3. Модели поддерживают контекстное окно до 32 тыс. токенов и работают с более чем 94 языками, включая русский.
Семейство открыто под лицензией MIT и интегрированы в sentence-transformers, LangChain и LlamaIndex. https://huggingface.co/microsoft/harrier-oss-v1-27b