🚀 Kubernetes под ML-нагрузки на bare metal + H100: пошагово и без прикрас Если вы строите ML-платформу в корпоративной среде (RBAC, изоляция, безопасн…
Если вы строите ML-платформу в корпоративной среде (RBAC, изоляция, безопасность) и при этом хотите нормально утилизировать GPU - в Совкомбанк Технологии поделились реальным опытом: что пробовали, где «сломалось», и к какой архитектуре в итоге пришли.
Что внутри:
• почему идея держать две ML-платформы в одном кластере (taints/labels) упирается в конфликты компонентов и риски ИБ;
• как разнесли всё на два независимых кластера, чтобы обновления и безопасность не превращались в боль;
• практический гайд по установке драйверов NVIDIA и типовым ошибкам (DKMS, модуль ядра, container runtime и т.д.);
• деплой GPU Operator;
• самое вкусное - MIG на H100: как включать профили через label’ы нод, какие профили выбирать под inference/training и что делать, когда MIG-инстанс недоступен (Pending, failover/retry и т.п.);
• в конце - базовые шаги по деплою Kubeflow 1.10 и что ожидать в дебаге.
🧩 Это тот редкий материал, где есть и «как сделать», и «почему так делать не стоит», и конкретные команды.
Читать: https://habr.com/ru/companies/sovcombank_technologies/articles/994534/
Подпишись 👉 @i_DevOps