Обязанности:

Развивать и поддерживать платформу GenAI в банке: прод-кластера Kubernetes (on-prem/bare-metal/облако), включая GPU-ноды, пулы, драйверы, CUDA/миграции версий.
Строить и поддерживать CI/CD/GitOps (GitLab CI + Argo CD/Flux): шаблоны пайплайнов, policy-as-code, progressive delivery, секреты, деплой в multi-env (dev/test/stage/prod).
Эксплуатация и тюнинг Kafka/Redpanda: персистентность, ретенции, компрессия, ACL, безопасность, Schema Registry, мониторинг и алертинг.
Настройка и эксплуатация сервисов инференса LLM/STT/TTS: Triton/vLLM/KServe, autoscaling (HPA/VPA/KEDA), оптимизация latency/throughput, A/B/канареечные релизы.
Внедрение Observability end-to-end: метрики, логи, трейсы, бизнес-SLO; дашборды для продуктовых команд; on-call ротации и алерты без «шумов».
Управление артефактами и регистри: Harbor/анти-троян, репликации, retention, SBOM и подписи.
Data plane для приложений: Postgres/ClickHouse, Redis, S3/MinIO; бэкапы, PITR, репликации, DR-план.
Автоматизация через IaC: Terraform/Ansible (модули, ревью, тесты), единые стандарты окружений, Golden Images/Base Images.
Capacity/Cost-management (в т.ч. GPU): планирование, квоты, bin-packing, оптимизация загрузки, отчётность по затратам.
Инцидент-менеджмент: triage, быстрый recovery, пост-мортемы, предотвращение повторов.
Работать вместе с SecOps/IT-безопасностью: SAST/DAST, supply chain, K8s policies, аудит; соответствие требованиям регулятора.
Поддерживать процессы платформенной команды: документация (Runbooks, Playbooks, ADR), внутренняя экспертиза, менторинг, ревью.

Требования:

Обязательные:

• Продвинутые знания Linux (Debian/Ubuntu/CentOS/RHEL), сетевые стеки, namespaces/cgroups, systemd, kernel tuning.

• K8s на уровне администрирования кластеров

• GPU в Kubernetes: NVIDIA device plugin, MIG/time-slicing, драйверы/CUDA/CUDNN, мониторинг и планирование ресурсов.

• CI/CD: GitLab CI (предпочтительно) / Jenkins / GitHub Actions; построение многоступенчатых пайплайнов

• GitOps: Argo CD / Flux, Helm/Kustomize, шаблоны окружений, progressive delivery (Blue/Green, Canary)

• Реляционные и аналитические СУБД на уровне эксплуатации: PostgreSQL/ClickHouse (бэкапы, репликации, настройки)

• Observability: Prometheus/Alertmanager, Grafana, Loki/ELK/Opensearch, OpenTelemetry (трейсинг/метрики/логи), дашборды и алерты по SLO/ошибочным бюджетам.

• Контейнеризация: Docker/BuildKit/kaniko, приватные регистри (Harbor/ACR/ECR/GCR), базовые оптимизации образов.

• Практики DevOps/SRE: SLA/SLO, error budgets, пост-мортемы, RCA, capacity/cost-management (в т.ч. GPU-стоимость).

Желательные:

• Платформы инференса: NVIDIA Triton, vLLM, KServe/Seldon, Bento, Ray Serve — деплой/наблюдаемость.

• Объектное хранилище: S3/MinIO; кэширование Redis/KeyDB.

• LLMOps-инструменты: Langfuse/Weights & Biases/Arize/Phoenix — метрики качества/трассировка

• Оркестрация процессов: Temporal/Argo Workflows (желательно на уровне эксплуатации).

· Работа в кросс-функциональной среде и поддержка нескольких продуктовых сквадов (GenAI-оператор, Insight/VoC, STT/TTS и др.).

· Самостоятельная диагностика и решение инцидентов, проведение RCA и пост-мортемов.

· Подбор оптимальных решений под нестандартные ограничения (latency/cost/security/compliance).

· Быстрое обучение новым инструментам, системное мышление, инженерная дисциплина.

· Коммуникация: умение договариваться с разработкой, безопасностью, эксплуатацией, аналитиками; умение аргументировать решения для архитект-комитетов.

· Менторство: помощь мидлам/джунам, код-ревью, улучшение платформенных стандартов.

Условия:

Фиксированный оклад + годовой бонус;
Социальный пакет, включающий ДМС и материальную помощь, а также скидки от партнеров.
Перспективы карьерного роста ( вертикальные / горизонтальные )

Сопроводим до оффера

Похожие вакансии

Senior DevOps инженер в команду GenAI. Setup

Senior DevOps

Сопроводим до оффера

DevOps Engineer (Part-time)

DevOps инженер

Senior Devops Engineer

DevOps-инженер

DevOps