Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets
Требования
Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... И умение применять это практически для обеспечения надежности сервисов
Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы
Понимание, что такое load balancing, circuit breakers, disaster recovery, MTTR, RTO, и т.п.
Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть)
Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
Понимание, как работают сети и умение диагностировать проблемы в их работе
Практический опыт IaaC (Terraform/Ansible) и понимание принципов
Практический опыт построения CI/CD (Gitlab CI, Argo CD)
Умение писать автоматизацию и скрипты на Python/Go
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK)
Практический опыт в SRE роли
Будет плюсом, если Вы:
Знаете, как сделать отказоустойчивый масштабируемый сервис
Имеете опыт написания и ревью технической документации
Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании
Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
Имеете опыт внедрения observability-as-code и alerting-as-code