Платформенный SRE

От 3 до 6 лет

Гибрид

Обязанности

Участие в продуктовой RUN команде
Методология наблюдаемости – формировать требования к данным и метрикам; внедрять стандарты надёжности данных и лучшие практики наблюдаемости
Анализ потоков и метрик – работать с Prometheus, Loki, OpenTelemetry и др.; выявлять отклонения, узкие места и возможности оптимизации
Data QA (контроль качества данных) – проверять полноту, корректность и соответствие требованиям; автоматизировать проверки через Quality Gates (правильность схемы, покрытие метрик, отсутствие дублирования, соответствие SLA/SLO) → оценка качества перед попаданием в прод
Тестирование и R&D Ops - писать и поддерживать автоматические тесты компонентов мониторинга; проверять наличие и корректность метрик, логов, трассировок после деплоя; планировать тесты надёжности (отказы узлов, сетевые задержки, падения зависимостей) и канарейковые/теневые развертывания с автоматическим откатом; проводить нагрузочное тестирование, сравнивать результаты с базовым профилем; исследовать новые технологии, собирать метрики, готовить рекомендации; интегрировать Quality Gates в CI/CD – каждый релиз проходит проверку качества и надёжности; отслеживать эффективность через SRE-KPIs (MTTR, доля неудачных изменений, коэффициент успешных хаос-тестов, переход PoC → прод) и публиковать их в дашбордах.
Разбор инцидентов и RCA – анализировать логи, трассировки, метрики, ETL-pipeline; документировать причины, фиксировать ошибки, предлагать решения; вести базу знаний (post-mortem, операционные руководства).
Техническая документация – создавать и актуализировать схемы потоков данных, инструкции, описания архитектуры платформы.
Развитие внутренней платформы мониторинга – улучшать функциональность и производительность; автоматизировать наблюдаемость и оповещения как код ; интегрировать пороги проверки качества в CI/CD для проверки перед деплоем.
Обучение и передача знаний – готовить обучающие материалы, проводить воркшопы.
Способствовать принятию единых практик наблюдаемости

Требования

Знаете, как сделать отказоустойчивый масштабируемый сервис
Имеете опыт написания и ревью технической документации
Имеете опыт коммуникации с разработчиками и бизнесом (объяснение компромиссов между надёжностью и разработкой функций).
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в прод
Знаете, как определять SLI\SLO для сервиса, у которого нет исторических данных о надежности
Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
Имеете опыт внедрения наблюдаемости как код (observability as code), оповещения как код (alerting as code)

Условия

Работа в Cloud.ru — это:

Комфортная среда
Оформление в соответствии с трудовым законодательством РФ.
Достойный уровень дохода: оклад + годовой бонус.
Расширенный ДМС со стоматологией.
Компенсация спорта.
Штатный терапевт и психолог.
Гибкий график работы, пятница – сокращенный рабочий день.
Классный офис в Москве и коворкинги в разных городах России.
Возможность работать удаленно. на территории РФ (зависит от функционала и позиции).
Культура, в которой эмпатия, уважение, открытость и свобода строить рабочий процесс так, как считаешь нужным.
Полезные перекусы.

Место, где ты растешь

Индивидуальный план развития и обучение за счет компании.
Возможность вертикального и горизонтального роста.
Возможность развиваться как эксперту: выступать на мероприятиях, писать статьи.

Крутая команда

Профессиональные сообщества и клубы по интересам.
Неформальные мероприятия: от футбольного клуба до посиделок с пиццей.

Еще у нас

Материальная помощь при рождении детей и других семейных обстоятельствах
Бонусы за рекомендации кандидатов на открытые вакансии
Бонусные программы от компаний партнеров

Теги

#Loki #OpenTelemetry #Prometheus

Откликнуться

Платформенный SRE

Платформенный SRE

Обязанности

Требования

Условия

Наш телеграм канал с вакансиями каждый день