Обязанности
- реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга;
- проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
- участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
- создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
- вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).
Требования
- уверенные знания в области software-defined storage (ceph, cloudian и подобное);
- уверенные знания и опыт администрирования Linux;
- опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше);
- способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
- знание технологий Openstack;
- базовые знания в области сетевых технологий;
- умение работать с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK );
Откликнуться
Подходит вакансия? Оставь нам свое резюме и контактные данные
- Фамилия Имя
- Телефон
- Электронная почта
- Приложить файл
- Комментарий
Я даю согласие на обработку моих персональных данных в соответствии с политикой обработки персональных данных и политикой конфиденциальности.

№1 на рынке искусственного интеллекта CNews Analytics, 2023

№1 по темпам роста IaaS-сервисов Data Center Awards 2023

№1 по PaaS-сервисам iKS-Consulting, 2022

№1 в рейтинге лучших работодателей в сфере облачных услуг Telecom Daily, 2023

Суперкомпьютеры Christofari и Christofari Neo в топ–500 самых мощных суперкомпьютеров мира