На слайде — архитектура корпоративной LLM-платформы Sminex О ней очень подробно рассказал на Хабре Артем Письменный, руководитель группы цифровой тран…
О ней очень подробно рассказал на Хабре Артем Письменный, руководитель группы цифровой трансформации девелопера:
«Мы сразу настаивали на том, что сначала нужно построить платформу — и только потом делать кейсы на ней. Да, это медленнее на старте. Да, первый результат виден не сразу. Зато когда платформа готова, каждый следующий ассистент собирается за часы, а не за недели и сразу живёт в контролируемой среде», — отметил Артем.
Какие задачи решает архитектура
🟣 Единый вход для сотрудников. Вместо разрозненных ботов — один привычный чат-интерфейс. Sminex взяли Open WebUI: сотрудник открывает браузер, выбирает ассистента и пишет. Под капотом — корпоративный SSO, права доступа по отделам, возможность создавать своих ассистентов без кода.
🟣 Контроль расходов и доступа. Без центрального шлюза каждая команда подключала бы модели самостоятельно, бюджет утекал бы незаметно, а при сбое нужно было бы переключать на резерв вручную. LiteLLM решает это: единая OpenAI-совместимая точка входа, виртуальные ключи с лимитами, автоматический fallback. Правило жёсткое — никаких прямых вызовов моделей.
🟣 Быстрая сборка сложных инструментов. Не всё решается простым промтом. Иногда нужно найти документ, вытащить из него данные, проверить ответ, отформатировать. Langflow — визуальный конструктор, где такие цепочки собираются из блоков. Если стандартных не хватает — можно дописать свои на Питоне. Готовый flow публикуется как инструмент в чате Open WebUI через MCP.
🟣 Гибкость в выборе моделей. OpenAI — для сложных задач, локальные модели на vLLM — для типовых, OpenRouter — для узкоспециальных. Сотрудник не выбирает вручную, LiteLLM решает сам. За время работы платформы «железо» выросло от одной видеокарты RTX 5000 для экспериментов до кластера 2×H200.
🟣 Поиск по корпоративной базе данных без галлюцинаций. Для простых задач хватает встроенного RAG в Open WebUI, а более сложные обрабатывают через контролируемые RAG-pipeline, собранные в Langflow. Сейчас тестируют RAGFlow, который берёт на себя парсинг, чанкинг и индексацию. Правило: «ответ содержит ссылки на источники, а если информации нет — явный отказ вместо галлюцинации».
🟣 Надёжная инфраструктура. Не просто серверы, а управляемый кластер Deckhouse Kubernetes Platform — следит за обновлениями, безопасностью и развёртыванием.
🟣 Понимание, что происходит — два уровня мониторинга. Grafana позволяет наблюдать за «железом»: жив ли сервис, не перегреты ли видеокарты, — и видеть, где узкое место. А Langfuse — за логикой LLM: со всеми цепочками промтов → ответов модели → стоимости. Если бот галлюцинирует — можно найти шаг, где пошло не так.
После запуска в октябре 2025-го число пользователей росло органично — без директив, через вебинары и обучалки. Сотрудники поняли пользу, начав создавать инструменты, а потом делиться кейсами в корпоративном канале. А благодаря предсказуемому и четко выстроенному фундаменту нового ассистента можно собрать быстро и сразу применять в работе.