Нужен дежурный инженер для мониторинга и поддержки сервиса. Это позиция первой линии: вы работаете строго по runbook'ам, фиксируете всё происходящее и эскалируете нестандартные ситуации на Senior-инженера. Главное в этой роли — внимательность, дисциплина и умение чётко описывать проблему.
Задачи
- Постоянный мониторинг сервисов и инфраструктуры
- Реагирование на алерты строго по runbook'ам
- Первичная диагностика инцидентов: проверка доступности, логов, состояния сервисов
- Эскалация на Senior Operations Engineer при выходе за рамки runbook'а
- Ведение журнала событий и инцидентов; своевременные статусы и апдейты
Обязательные требования
- Linux, командная строка — SSH, навигация по логам (journalctl, tail, grep), управление сервисами (systemctl), базовая диагностика нагрузки и дискового пространства (top/htop, df, du)
- Сеть, базово — проверка доступности хоста и порта (ping, curl, nc/telnet), понимание DNS, оценка «жив сервис или нет»
- Инфраструктура, базово — понимание разницы между физическим хостом и VM; представление об out-of-band доступе (IPMI/BMC); базовая ориентация в облачной консоли (статус инстанса, метрики)
- Мониторинг и дашборды — чтение метрик и графиков (Grafana или аналог), понимание сути алерта, severity и порогов; умение отличить реальный инцидент от false-positive
- NGINX — чтение конфигов, работа с логами, перезапуск
- MySQL — базовые read-only запросы, проверка репликации, чтение slow log
- Docker / Docker Compose — статус контейнеров, чтение логов, перезапуск, базовое чтение compose-файла
- Работа с LLM-ассистентами (Claude, Cursor и др.) — использование для диагностики, поиска решений, документирования
- Английский язык для чтения технической документации и алертов
- Умение чётко и структурно описывать проблему письменно
- Опыт от 1 года в роли sysadmin, support или аналогичной
Будет плюсом
- Администрирование физических серверов: IPMI / iDRAC / iLO (удалённый reset, доступ к консоли, проверка железа)
- Гипервизоры: KVM / Proxmox / VMware или аналог — управление жизненным циклом VM
- Облака — GCP, AWS, Azure, Yandex Cloud: инстансы, диски, сети, метрики и логи в консоли
- On-call системы: PagerDuty, OpsGenie или аналог
- Понимание Prometheus-style мониторинга (probe, metric, alert rule)