Мы в поиске Team Lead SRE, который сочетает экспертизу SRE/DevOps, Java с менеджерскими задачами. В управлении команда из 20 человек (SRE и мониторинг).
Наше направление — эквайринг: высоконагруженные, критически важные сервисы с жесткими требованиями к доступности и обеспечению надежности.
Мы рассматриваем кандидатов, готовых выстраивать процессы, управляя большим потоком входящей информации и внешних коммуникаций, активно работать над повышением зрелости инфраструктуры и качественно доносить информацию до топ-менеджмента.
Обязанности:
- Управлять несколькими SRE-командами
- Обеспечить присутствие и актуальность данных по предоставляемым услугам в информационных системах компании
- Обеспечить работу и развитие процессов инцидент менеджмента: детектирование сбоев, реагирование, устранение, накопление статистики по сбоям в предоставлении услуг
- Обеспечить наполнение беклога команд разработки задачами, связанными с надежностью
- Заказывать изменения у разработки
- Объявлять и снимать фризы, блокировать релиз функционала, который ставит существенный риск функционированию бизнеса либо ранее сделанному функционалу высокой критичности
- Обеспечить расследования крупных сбоев на уровне линии/платформы, участвовать в расследованиях особо крупных "черных" сбоев на уровне группы компаний
- Контроль сроков, оценка реализации стратегических задач
Требования:
- Опыт управления командами инженеров
- Опыт в роль SRE или DevOps от 3 лет
- Опыт в траблшутинге
- Опыт в построении выконагруженных систем
- Бэкграунд в разработке ПО