Обязанности:
Требования:
Обязательные:
• Продвинутые знания Linux (Debian/Ubuntu/CentOS/RHEL), сетевые стеки, namespaces/cgroups, systemd, kernel tuning.
• K8s на уровне администрирования кластеров
• GPU в Kubernetes: NVIDIA device plugin, MIG/time-slicing, драйверы/CUDA/CUDNN, мониторинг и планирование ресурсов.
• CI/CD: GitLab CI (предпочтительно) / Jenkins / GitHub Actions; построение многоступенчатых пайплайнов
• GitOps: Argo CD / Flux, Helm/Kustomize, шаблоны окружений, progressive delivery (Blue/Green, Canary)
• Реляционные и аналитические СУБД на уровне эксплуатации: PostgreSQL/ClickHouse (бэкапы, репликации, настройки)
• Observability: Prometheus/Alertmanager, Grafana, Loki/ELK/Opensearch, OpenTelemetry (трейсинг/метрики/логи), дашборды и алерты по SLO/ошибочным бюджетам.
• Контейнеризация: Docker/BuildKit/kaniko, приватные регистри (Harbor/ACR/ECR/GCR), базовые оптимизации образов.
• Практики DevOps/SRE: SLA/SLO, error budgets, пост-мортемы, RCA, capacity/cost-management (в т.ч. GPU-стоимость).
Желательные:
• Платформы инференса: NVIDIA Triton, vLLM, KServe/Seldon, Bento, Ray Serve — деплой/наблюдаемость.
• Объектное хранилище: S3/MinIO; кэширование Redis/KeyDB.
• LLMOps-инструменты: Langfuse/Weights & Biases/Arize/Phoenix — метрики качества/трассировка
• Оркестрация процессов: Temporal/Argo Workflows (желательно на уровне эксплуатации).
· Работа в кросс-функциональной среде и поддержка нескольких продуктовых сквадов (GenAI-оператор, Insight/VoC, STT/TTS и др.).
· Самостоятельная диагностика и решение инцидентов, проведение RCA и пост-мортемов.
· Подбор оптимальных решений под нестандартные ограничения (latency/cost/security/compliance).
· Быстрое обучение новым инструментам, системное мышление, инженерная дисциплина.
· Коммуникация: умение договариваться с разработкой, безопасностью, эксплуатацией, аналитиками; умение аргументировать решения для архитект-комитетов.
· Менторство: помощь мидлам/джунам, код-ревью, улучшение платформенных стандартов.
Условия: