Компания, занимающаяся разработкой и поддержкой высоконагруженных проектов для крупных компаний, в том числе с мировой известностью, основная часть которых представляет собой B2B решения развлекательной, игровой и спортивной тематики, находится в поиске Operation Engineer
Основные обязанности
Проектирование и развитие системы мониторинга для сервисов на базе .NET / C# / React в Kubernetes.
Настройка и сопровождение метрик, логов и трейсов: VictoriaMetrics /Prometheus/Grafana
ELK (Elasticsearch, Logstash/FluentBit, Kibana
Разработка дашбордов, отражающих: техническое состояние системы, ключевые SLI/SLO, признаки деградации сервиса и пользовательского опыта.
Настройка алертинга с приоритетами и трешхолдами, ориентированными на реальные инциденты, а не шум.
Инциденты и поддержка L1 / L2
Разработка и поддержка runbook’ов / playbook’ов для команд поддержки L1 / L2
Описание типовых сценариев инцидентов, шагов диагностики и эскалации
Подготовка инструкций по использованию дашбордов и алертов для быстрого определения масштаба и причины проблемы
Участие в разборе инцидентов (postmortem), формирование улучшений мониторинга и процессов
Эксплуатация и стабильность
Участие в обеспечении стабильной работы Kubernetes-кластеров и сервисов.
Анализ инцидентов, связанных с производительностью, доступностью и отказоустойчивостью.
Взаимодействие с командами разработки для внедрения observability best practices (метрики, логирование, health-checks).
Поддержка и улучшение процессов on-call (при необходимости).
Обязательные требования
Опыт работы в роли Operations Engineer / DevOps Engineer / SRE от 3 лет.
Практический опыт работы с Kubernetes в production
Опыт настройки мониторинга и алертинга на базе: Prometheus / VictoriaMetrics/Grafana/ELK stack
Понимание принципов observability: metrics, logs, traces
Технический бэкграунд
Понимание работы backend-приложений на .NET / C# (метрики, логирование, health endpoints)
Базовое понимание frontend-метрик (React, web vitals — будет плюсом).
Опыт работы с Linux, контейнерами, Helm
Понимание сетевых основ (HTTP, TCP, DNS)
Будет плюсом
Опыт внедрения OpenTelemetry.
Опыт построения SLI/SLO.
Опыт работы с high-load системами.
Опыт автоматизации (bash, terraform, ansible, helm).
Опыт участия в on-call ротациях
Опыт написания и поддержки эксплуатационной документации (runbooks).
Понимание процессов инцидент-менеджмента и эскалаций.
Что мы предлагаем взамен
Удобный тип и вид оформления
Годовой бонус по результатам работы
Работа из офиса (гибкое начало дня): РФ, Сербия, Грузия, Армения, Кипр
Возможность переезда в любой офис компании
Лояльность и возможность вырасти еще выше