Обязанности:
Обеспечение высокой доступности и надёжности продуктовых сервисов в production; проектирование отказоустойчивой инфраструктуры и определение метрик SLO; развитие платформенной инфраструктуры; автоматизация рутинных операций (toil reduction) и оптимизация облачных ресурсов; проектирование стратегий аварийного восстановления (DRP); развитие инженерной культуры надёжности и менторство команды.
Мониторинг систем и реагирование на инциденты РО/Р1, проведение RCA и постмортемов; определение и отслеживание SLI/SLO/SLA, управление error budget; поддержка кластеров Swarm (с перспективой перехода на Kubernetes); разработка инфраструктуры как кода (laC) с помощью Terraform и Ansible; создание CI/D пайплайнов в GitLab C1 (blue-green, canary, rollback); управление секретами через Vault; развертывание и развитие стека Prometheus,
VictoriaMetrics, Grafana, Loki, Tempo, OpenTelemetry; написание скриптов и утилит на Python / Go / Bash; проведение capacity planning и оптимизация затрат; реализация load balancing, circuit breakers и проведение Chaos Engineering drill-учений; проведение архитектурных ревью, менторство junior/middle инженеров и ведение базы знаний.
Требования:
Высшее образование; опыт работы в роли DevOps/SRE/Platform Engineer o 4-5 лет в production high-load системах; глубокие знания Docker Swarm; практический опыт работы с Terraform и Ansible; уверенное владение Prometheus/Grafana и инструментами построения систем observability; понимание SRE-практик (SLI/SLO, error budget, incident management); опыт
построения CI/CD пайплайнов в GitLab Cl; глубокие знания Linux (сети TCP/IP, DNS, HTTP/S, TLS, файловые системы, systemd); английский язык на уровне чтения технической документации.
Условия:
Оформление по ТК РФ, полная занятость, срок испытания 3 месяца, заработная плата-по результатам собеседования (не ниже рынка)