Мы ищем технического лидера, под управлением которого — команда из шести инженеров L1, мультисерверная архитектура с большим парком оборудования и взаимосвязанных сервисов, а также полный цикл: от деплоя до мониторинга и устранения инцидентов.
Сложные, редкие и нестандартные инциденты решаете лично. Но стратегическая миссия шире — выстроить систему, в которой типовые проблемы закрываются на уровне L1 по runbook'у, без вашего вмешательства. Через документацию, наставничество и непрерывное улучшение процессов.
Вы удерживаете полную картину архитектуры: знаете зависимости между сервисами, участвуете в релизах и оцениваете риски изменений.
Задачи
- Обработка сложных инцидентов, выходящих за рамки runbook'а (Manual Cases)
- Написание, актуализация и ревью runbook'ов для команды L1
- Наставничество: помощь дежурным инженерам в разборе инцидентов и росте компетенций
- Участие в процессах Change & Release: оценка рисков, сопровождение деплоев
- Ведение и актуализация Service List: описание сервисов, зависимостей, критичности
- Подготовка Root Cause Analysis по значимым инцидентам
- Взаимодействие с Development и Product при эскалациях
Обязательные требования
- Linux — глубокое знание: сетевой стек, диагностика производительности, системный тюнинг
- Docker / Docker Compose — уверенное конфигурирование, отладка, оптимизация
- NGINX, HAProxy — настройка, балансировка нагрузки, SSL/TLS, управление upstream'ами
- MySQL — репликация, кластерные конфигурации, backup/restore, оптимизация запросов и схем
- Redis — архитектура, диагностика, настройка failover и persistence
- RabbitMQ — понимание модели очередей, диагностика, восстановление после сбоев
- Memcached — настройка, диагностика, оптимизация под нагрузку
- ClickHouse — базовая эксплуатация, диагностика, чтение профилей запросов
- PHP — понимание на уровне эксплуатации: интерпретатор, конфигурация (php-fpm, php.ini), логи, базовая отладка
- Мониторинг и алертинг — настройка Nagios (NRPE/NCPA), Loki, Sentry; написание проверок и правил алертинга
- Git / GitLab / SVN — понимание VCS, работа с пайплайнами, участие в релизном процессе
- RAID — понимание Software RAID и Hardware RAID, диагностика деградации массива
- LLM-ассистенты (Claude, Cursor и др.) — уверенное использование для анализа сложных проблем, написания runbook'ов, автоматизации документирования
- Опыт написания технической документации и runbook'ов
- Английский язык для чтения технической документации и алертов
- Опыт от 5 лет в роли sysadmin, DevOps