Компания, занимающаяся разработкой и поддержкой высоконагруженных проектов для крупных компаний, в том числе с мировой известностью, основная часть которых представляет собой B2B решения развлекательной, игровой и спортивной тематики, находится в поиске Operation Engineer

Основные обязанности

Проектирование и развитие системы мониторинга для сервисов на базе .NET / C# / React в Kubernetes.
Настройка и сопровождение метрик, логов и трейсов: VictoriaMetrics /Prometheus/Grafana
ELK (Elasticsearch, Logstash/FluentBit, Kibana
Разработка дашбордов, отражающих: техническое состояние системы, ключевые SLI/SLO, признаки деградации сервиса и пользовательского опыта.
Настройка алертинга с приоритетами и трешхолдами, ориентированными на реальные инциденты, а не шум.

Инциденты и поддержка L1 / L2

Разработка и поддержка runbook’ов / playbook’ов для команд поддержки L1 / L2
Описание типовых сценариев инцидентов, шагов диагностики и эскалации
Подготовка инструкций по использованию дашбордов и алертов для быстрого определения масштаба и причины проблемы
Участие в разборе инцидентов (postmortem), формирование улучшений мониторинга и процессов

Эксплуатация и стабильность

Участие в обеспечении стабильной работы Kubernetes-кластеров и сервисов.
Анализ инцидентов, связанных с производительностью, доступностью и отказоустойчивостью.
Взаимодействие с командами разработки для внедрения observability best practices (метрики, логирование, health-checks).
Поддержка и улучшение процессов on-call (при необходимости).

Обязательные требования

Опыт работы в роли Operations Engineer / DevOps Engineer / SRE от 3 лет.
Практический опыт работы с Kubernetes в production
Опыт настройки мониторинга и алертинга на базе: Prometheus / VictoriaMetrics/Grafana/ELK stack
Понимание принципов observability: metrics, logs, traces
Технический бэкграунд
Понимание работы backend-приложений на .NET / C# (метрики, логирование, health endpoints)
Базовое понимание frontend-метрик (React, web vitals — будет плюсом).
Опыт работы с Linux, контейнерами, Helm
Понимание сетевых основ (HTTP, TCP, DNS)

Будет плюсом

Опыт внедрения OpenTelemetry.
Опыт построения SLI/SLO.
Опыт работы с high-load системами.
Опыт автоматизации (bash, terraform, ansible, helm).
Опыт участия в on-call ротациях
Опыт написания и поддержки эксплуатационной документации (runbooks).
Понимание процессов инцидент-менеджмента и эскалаций.

Что мы предлагаем взамен

Удобный тип и вид оформления
Годовой бонус по результатам работы
Работа из офиса (гибкое начало дня): РФ, Сербия, Грузия, Армения, Кипр
Возможность переезда в любой офис компании
Лояльность и возможность вырасти еще выше

Operation Engineer

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

DevOps инженер

Blockchain Engineer

DevOps инженер

DevSecOps инженер

DevOps engineer

DevOps Yacore

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

DevOps инженер

Blockchain Engineer

DevOps инженер

DevSecOps инженер

DevOps engineer

DevOps Yacore