SRE / Эксперт по обеспечению надежности
Мы в поиске SRE инженера в практику обеспечения надежности, на задачи внедрения практик на уровне продуктов и систем Банка.
Чем предстоит заниматься
- Внедрять практики SRE на уровне продуктов и систем Банка
- Формировать и контролировать реализацию нефункциональных требований к доработкам
- Прорабатывать и описывать методики диагностики, подготавливать эксплуатационные инструкции, обучать L1 и L2
- Улучшать метрики надежности, наблюдаемости в продуктах/системах совместно с продуктовыми командами или администраторами систем
- Выстраивать процессы управления уровнем сервиса на основе SLA/SLO/SLI
- Обеспечивать формирование планов и мероприятий по обеспечению непрерывности (DRP/DRT, катастрофоустойчивость, подтверждению заявленных RTO/RPO)
- Выявлять проблемы и дефекты функционала по продуктовым метрикам, логам, БД
- Устранять аварии и нештатные ситуации, выявлять причины, подготавливать Postmortem-отчёты
- Проводить анализ ИТ-решений, взаимодействие с командами и подразделениями в рамках анализа ИТ-решений и интеграций.
Что мы ожидаем
- Опыт внедрения практик и инструментов SRE
- Практический опыт локализации проблем и устранения инцидентов в больших и сложных системах
- Опыт разработки SLA/SLI/SLO и знание принципов их формирования;
- Умение работать с высоконагруженными сервисами
- Знание принципов и методов обеспечения качества и надёжности ИТ сервисов
- Уверенные навыки работы в Grafana – создание дашбордов, настройка Alerting
- Опыт работы с ELK (запросы, визуализация, дашборды)
- Навыки работы в ОС Linux, в том числе опыт написания bash-скриптов
- Понимание жизненного цикла ИТ-продуктов
- Опыт участия в ИТ-проектах или работы в продуктовых командах (взаимодействие с аналитиками, разработчиками, QA)
- Высшее техническое образование