Отвечать за доступность платформы и развернутых на ней приложений, оперативно устранять инфраструктурные инциденты.
Обеспечивать обновление платформы, весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений.
Организовать качественный мониторинг и алертинг инфраструктуры и приложений.
Быть активным участником процессов по анализу возникающих проблем и их системному решению.
Выполнять работы по запросам пользователей.
Планировать и выполнять работы по запросам на изменение, а также регламентных работ направленных на предотвращение угроз деградации/прерывания сервисов.
Осуществлять контроль доступных мощностей, подготавливать предложения по увеличению мощностей.
Участвовать в проектах, внедрять, согласовывать и актуализировать эксплуатационную документацию.
Подготавливать технические требования в случаях необходимости модернизации инфраструктуры.
Проводить DR-тесты согласно DRP, согласовывать изменения продукта (изменение архитектуры, дизайна, масштабирование), оценивать риски и целесообразность изменений.
Участвовать в развертке новых экземпляров платформы.
Требования
Глубокое знание сетевой модели OSI, TCP/IP-стека и основных прикладных протоколов.
Экспертный уровень администрирования Unix-подобных ОС.
Опыт написания скриптов для автоматизации (Bash, Python).
Опыт автоматизации развертывания и управления инфраструктурой, в том числе облачной (Ansible, Terraform и т.п.).