Инженер по системам мониторинга
SOFTSWISS продолжает расширять команду и ищет инженера по системам мониторинга.
Если вы увлечены предоставлением первоклассного сервиса и считаете себя проактивным, позитивно настроенным человеком, мы будем рады услышать вас! Мы стремимся, чтобы вы внесли свой вклад в успех нашей команды. Если вы ищете сложную и вознаграждающую карьерную возможность, это может быть идеальным вариантом.
Основные обязанности:
Два основных столпа нашего рабочего процесса:
- Реагирование на события/оповещения мониторинга (задачи L1/L2 для определённых частей системы):
- Обеспечение дежурного обслуживания, включая дневные и ночные смены.
- Решение инцидентов путём устранения неполадок и разрешения проблем, при необходимости обращаясь за помощью к сторонней или вендорской поддержке.
- Направление проблем или запросов в соответствующий отдел по мере необходимости.
- Ведение подробных записей и документации текущих проблем инфраструктуры и анализа первопричин (Root Cause Analyses, RCA).
- Внесение вклада в безопасные и эффективные внутренние практики использования ИИ в процессах мониторинга и реагирования на инциденты.
- Поддержка и улучшение систем мониторинга:
- Сотрудничество с другими командами для понимания и определения их потребностей в мониторинге, а затем внедрение соответствующих решений.
- Настройка и корректировка систем мониторинга/наблюдаемости для различных команд.
- Проектирование и настройка оповещений и панелей мониторинга под конкретные нужды.
- Оптимизация оповещений для уменьшения количества нерелевантных уведомлений и повышения их значимости.
- Улучшение панелей мониторинга для лучшей ясности, понимания и более полного обзора.
- Создание и поддержание связей между системами мониторинга и другими платформами, такими как Jira, Opsgenie и др., при необходимости.
- Создание и обновление базы знаний, охватывающей конфигурации систем, процессы оповещений, руководства по устранению неполадок и пользовательские инструкции.
- Отслеживание новейших тенденций и лучших практик для постоянного повышения возможностей мониторинга в нашей организации.
- Выявление возможностей для автоматизации повторяющихся задач мониторинга и поддержки, включая подходы с использованием ИИ, где это уместно.
Требуемый опыт:
- Минимум 3 года опыта работы в качестве системного инженера, SRE, DevOps или инженера поддержки мониторинга (уровень L2 и выше).
- Хорошее понимание операционных систем на базе Linux (Debian-подобные).
- Опыт работы с контейнеризацией, виртуализацией и оркестрацией (LXC/LXD, Docker, Kubernetes).
- Опыт разработки на любом скриптовом языке (Bash, Python, Go и др.) и знание REST API.
- Знание базовых концепций баз данных (предпочтителен опыт работы с PostgreSQL), включая транзакции и WAL.
- Владение английским языком на уровне Intermediate (B1) или выше. Важно понимать техническую терминологию, связанную с нашим стеком технологий, и уметь интерпретировать техническую документацию.
- Практический интерес к использованию инструментов с поддержкой ИИ для устранения неполадок, автоматизации, документации и повышения операционной эффективности:
- Способность критически оценивать результаты, сгенерированные ИИ, и проверять их перед использованием в продуктивных средах.
- Понимание рисков и ограничений использования ИИ в инфраструктуре и производственных операциях.
Навыки и опыт
- Инструменты мониторинга/наблюдаемости (опыт работы как минимум с двумя из следующих)
- Zabbix (знание таких концепций, как LLD, прототипы, зависимости и препроцессинг)
- Grafana (знание источников данных, создание панелей и использование запросов)
- Prometheus/VictoriaMetrics и др. (понимание сбора метрик и оповещений)
- ELK/Splunk и др. (умение использовать запросы и фильтры для анализа логов)
- Site24x7/Pingdom и др. (опыт веб-мониторинга и метрик производительности)
- Операционные системы на базе Linux
- Глубокое понимание ключевых концепций, включая:
- Файловые системы
- Управление процессами
- Встроенные инструменты мониторинга
- Сети
- Скриптинг
- Устранение неполадок
- Знакомство с
- Kafka
- RabbitMQ
- GitLab
- Nginx/Puma
- Clickhouse
- PostgreSQL
- MongoDB
- Hashicorp Vault
- Микросервисы и оркестрация (Kubernetes)
- Любые IaC / автоматизация инфраструктуры: инструменты Provisioning (Terraform); управление конфигурациями (Ansible, Salt, Puppet)
Основные преимущества
- Частное страхование (в зависимости от типа контракта)
- Оплачиваемое членство в спортзале
- Комплексная программа поддержки психического здоровья
- Бесплатные уроки английского языка (онлайн)
- Курсы местного языка
- Оплачиваемый отпуск (PTO)
- Поддержка в период декретного отпуска
- Вознаграждения по программе рекомендаций
- Повышение квалификации, внутренние мастер-классы и участие в профессиональных конференциях и корпоративных мероприятиях