Описание вакансии
Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка. Команда будет занимать разработкой инструментов и процессов для реализации единой платформы для разработки, развертывания и эксплуатации решений на основе LLM, а так же агентской платформы для работы с ИИ-агентами.
Задачи
- Поддержка ML-платформы и Kubernetes (Основной фокус):
- Эксплуатация платформы:
- Мониторинг состояния сервисов инференса в Kubernetes (доступность подов, потребление ресурсов, перезапуски).
- Диагностика проблем с запуском контейнеров моделей (ошибки инициализации, нехватка памяти, проблемы с зависимостями).
- Мониторинг и инциденты:
- Настройка дашбордов для отслеживания метрик качества сервисов;
- Первичная реакция на инциденты: сбор логов, анализ трассировок, эскалация разработчикам (L3) при невозможности устранения в течение 15-30 минут;
- Анализ причин деградации производительности моделей (дрейф данных, проблемы инфраструктуры);
- Поддержка пользователей (Data Scientists / Разработчики):
- Консультирование по использованию API платформы для деплоя и управления моделями;
- Обучение работе с инструментами платформы (CLI, SDK, веб-интерфейс);
- Создание инструкций и FAQ по типовым задачам развертывания;
- Безопасность и доступы:
- Управление доступом к функциям платформы согласно политикам безопасности;
- Контроль соблюдения регламентов при работе с данными;
- Поддержка векторной БД Milvus (Опционально):
- Управление доступом:
- Создание баз данных и ролей в Milvus и назначение прав;
- Мониторинг Milvus:
- Поддержка дашбордов Grafana для векторной БД (метрики: задержка поиска, загрузка CPU узлов query, использование диска, статус лидера etcd, отставание Kafka);
- Реагирование на алерты (критические: остановка узлов, потеря лидера etcd, место на диске < 10%; предупреждения: задержка поиска > 5с, лаг Kafka > 1000).
Ожидания от кандидата
- Опыт использования Kubernetes (диагностика подов, работа с kubectl, понимание networking и storage);
- Понимание принципов работы ML-моделей (инференс, API моделей, форматы данных);
- Опыт настройки мониторинга и алертинга (Prometheus, Grafana, ELK);
- Навыки скриптования (Python/Bash) для автоматизации рутинных задач;
- Умение работать с пользователями и писать техническую документацию.
Условия работы
- Официальное трудоустройство по ТК РФ в аккредитованную IT компанию, белая заработная плата;
- Удаленная формат работы;
- ДМС после испытательного срока;
- И многое другое.