В команду SRE ищем коллег инженеров.

График 2/2(12 часов). Дневные смены с 08.00 до 20.00, ночные с 20.00 по 08.00.

Высоконагруженный сервис с миллионами пользователей. Интересные задачи. Наши офисы находятся в Москве и Санкт–Петербурге, мы рассматриваем кандидатов на удаленную занятость или гибридный график.

Чем предстоит заниматься:

Поддерживать стабильность и доступность сервисов в production:
Следить за состоянием сервисов в режиме реального времени, реагировать на инциденты и минимизировать время недоступности. Обеспечивать соответствие SLA/SLO и участвовать в дежурствах (on-call);
Расследовать инциденты, находить root cause и устранять аварии:
При возникновении сбоев — быстро локализовать проблему, устранить её и зафиксировать в постмортеме, чтобы она не повторилась. Анализировать цепочку событий, а не только симптомы;
Развивать культуру наблюдаемости-покрытие метриками, качество алертов, читаемость дашбордов:
Выстраивать систему мониторинга так, чтобы о проблеме было известно раньше, чем о ней сообщит пользователь. Улучшать существующие алерты, убирать шум, добавлять метрики там, где сейчас «слепые пятна»;
Помогать командам разработки и эксплуатации разбираться в проблемах и находить решения:
Выступать точкой экспертизы при расследовании нештатных ситуаций: помогать читать логи, интерпретировать метрики, находить узкие места. Работать на стыке команд, чтобы проблемы решались быстрее и системнее.

Требования:

Опыт работы Linux (Ubuntu);
Знание Docker (k8s, argocd);
Умение диагностировать базы данных (PGSQL/ Cassandra/ Clickhouse);
Monitoring (Zabbix, Grafana,VictoriaMetrics);
Logs (Vector, Kafka, Splunk);
Опыт работы CI/CD (Jenkins);
IaC (Foreman/Puppet/ Ansible/Pulumi/Terraform).

Что мы предлагаем:

Необходимое оборудование и софт для работы;
Официальное трудоустройство;
ДМС со стоматологией, офисный врач, доплата больничного листа, корпоративные скидки;
Льготные условия ипотеки в рамках зарплатного проекта;
Бесплатная подписка на сервисы партнеров;
Корпоративный спорт;
Насыщенная корпоративная жизнь;
Электронная библиотека издательства МИФ, в которую входят почти 2 тыс. единиц контента по бизнесу, саморазвитию, здоровому образу жизни и другим актуальным темам.

Сменный SRE-инженер

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Site Reliability Engineer

Site Reliability Engineer

Site Reliability Engineer

DevOps / SRE инженер

Инженер по надежности (SRE)

Site Reliability Engineer

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Site Reliability Engineer

Site Reliability Engineer

Site Reliability Engineer

DevOps / SRE инженер

Инженер по надежности (SRE)

Site Reliability Engineer