В команду SRE ищем коллег инженеров.
График 2/2(12 часов). Дневные смены с 08.00 до 20.00, ночные с 20.00 по 08.00.
Высоконагруженный сервис с миллионами пользователей. Интересные задачи. Наши офисы находятся в Москве и Санкт–Петербурге, мы рассматриваем кандидатов на удаленную занятость или гибридный график.
Чем предстоит заниматься:
Поддерживать стабильность и доступность сервисов в production:
Следить за состоянием сервисов в режиме реального времени, реагировать на инциденты и минимизировать время недоступности. Обеспечивать соответствие SLA/SLO и участвовать в дежурствах (on-call);
Расследовать инциденты, находить root cause и устранять аварии:
При возникновении сбоев — быстро локализовать проблему, устранить её и зафиксировать в постмортеме, чтобы она не повторилась. Анализировать цепочку событий, а не только симптомы;
Развивать культуру наблюдаемости-покрытие метриками, качество алертов, читаемость дашбордов:
Выстраивать систему мониторинга так, чтобы о проблеме было известно раньше, чем о ней сообщит пользователь. Улучшать существующие алерты, убирать шум, добавлять метрики там, где сейчас «слепые пятна»;
Помогать командам разработки и эксплуатации разбираться в проблемах и находить решения:
Выступать точкой экспертизы при расследовании нештатных ситуаций: помогать читать логи, интерпретировать метрики, находить узкие места. Работать на стыке команд, чтобы проблемы решались быстрее и системнее.Опыт работы Linux (Ubuntu);
Знание Docker (k8s, argocd);
Умение диагностировать базы данных (PGSQL/ Cassandra/ Clickhouse);
Monitoring (Zabbix, Grafana,VictoriaMetrics);
Logs (Vector, Kafka, Splunk);
Опыт работы CI/CD (Jenkins);
IaC (Foreman/Puppet/ Ansible/Pulumi/Terraform).
Что мы предлагаем: