Развитие и эксплуатация платформы геосервисов. Поддержка режимов HighAvailability и HighLoad. Система работает в нескольких средах: Kubernetes, облачные и виртуальные сервисы, bare-metall. Включает собственный CI/CD, систему наблюдаемости и высоконагруженные backend-сервисы.
Основная задача роли - обеспечивать надёжную эксплуатацию инфраструктуры, автоматизацию процессов доставки и полноценную наблюдаемость сервисов, гармонизацию системы с общекорпоративными требованиями по эксплуатации и информационной безопасности.
Вам предстоит:
- Проектировать и развивать CI/CD пайплайнов в GitLab для сервисов платформы (тестирование, деплой);
- проводить диагностику и устранять проблемы в Kubernetes-кластере, Proxmox, Облаке и приложениях (ресурсы, сеть, конфигурации, rollout);
- развивать и поддерживать системы мониторинга и метрик для сервисов и инфраструктуры (VictoriaMetrics stack);
- развивать и поддерживать системы алертинга, оптимизация алертинга (victoriametrics+vmalerts+alertmanager);
- разрабатывать Ansible-ролей и автоматизировать инфраструктурные процессы;
- реализовывать и поддерживать кастомные процессы деплоя приложений на виртуальные машины.
Вы нам подходите, если:
- Владеете уверенным опытом эксплуатации Kubernetes, Proxmox, Облако: диагностика проблем, работа с ресурсами, сетями и rollout-процессами;
- имеете опыт построения и поддержки CI/CD (GitLab CI), понимание процессов доставки приложений;
- имеете опыт работы с системами мониторинга и метрик (Prometheus/VictoriaMetrics), настройка алертинга;
- у вас был опыт автоматизации инфраструктуры с помощью Ansible и написания поддерживаемых ролей;
- знаете Linux, контейнеризации и сетевые принципы работы сервисов на уверенном уровне;
- имеете опыт анализа инцидентов и повышения надёжности сервисов (observability, postmortem).