Ведущий инженер по надежности сайта I уровня

EMEA

О компании Remote
Remote решает одну из самых больших проблем современных организаций — обеспечение соответствия глобальному трудовому законодательству с легкостью. Мы делаем возможным для компаний любого размера нанимать, оплачивать и управлять международными командами. С нашими основными ценностями в сердце и ориентированной на будущее рабочей культурой, наша команда неустанно работает над амбициозными задачами, асинхронно, по всему миру. Вы можете найти сотрудников Remote, работающих с 6 разных континентов (Антарктида пока что осталась за бортом!), и все наши позиции полностью удалённые.

Инновации — одна из наших ключевых ценностей, поэтому мы встроили возможности автоматизации и ИИ в требования к каждой роли.

Мы поощряем каждого члена команды Remote приносить свои таланты, опыт и культуру, чтобы помочь нам создать платформу HR мирового класса.

Если вы энергичны, любознательны, мотивированы и амбициозны, станьте частью нашего мира. Подайте заявку сейчас и определите будущее работы!

Что эта работа может вам предложить
В роли ведущего инженера по надежности сайта (Staff SRE) в Remote вы будете отвечать за техническое направление нашей платформы SRE, формируя её архитектуру, стратегию надежности и долгосрочное развитие. Это роль не только техническая, но и лидерская: вы будете вести инициативы на уровне всей платформы, устанавливать стандарты надежности для инженерных команд по всей организации и становиться мультипликатором силы для инженеров вокруг вас.

Ключевая часть этой роли — выявление и руководство возможностями использования ИИ: от сокращения операционной рутины до помощи инженерным командам в более эффективной разработке, выпуске и эксплуатации программного обеспечения. Вы будете работать с высокой степенью автономии, переводя технические риски в бизнес-эффекты и согласовываясь с менеджерами по инженерии, тимлидами и продуктовыми командами, чтобы надежность и эффективность инженерии были встроены во всё, что мы делаем.

Что вы приносите

Технические навыки

Более 8 лет опыта в области Site Reliability Engineering, DevOps или платформенной инженерии
Глубокие знания Kubernetes: эксплуатация, проектирование и масштабирование производственных кластеров
Подтверждённый опыт проектирования и управления облачной инфраструктурой на AWS (или других облачных провайдерах) в масштабе
Сильные навыки инфраструктуры как кода с использованием Terraform
Опыт определения и эксплуатации рамок надежности: SLO, SLI, бюджеты ошибок, стратегии оповещений
Хорошие знания систем наблюдаемости: Datadog, Grafana/Prometheus или аналогичные
Опыт работы с CI/CD платформами (GitLab CI, GitHub Actions или аналогичные) и автоматизацией развертывания
Уверенное владение Bash и скриптами для автоматизации; более широкие навыки программирования будут плюсом
Опыт работы с контейнерными инструментами (Docker) и экосистемой вокруг них
Любознательность и практический опыт применения ИИ-инструментов к инфраструктуре, операциям или инструментам для разработчиков: будь то ИИ-поддерживаемая автоматизация, рабочие процессы на базе больших языковых моделей или интеллектуальная наблюдаемость

Лидерские и поведенческие качества

Подтверждённый опыт ведения технических инициатив на уровне всей платформы и влияния на инженерное направление без формальных полномочий
Сильные коммуникативные навыки: умение адаптировать сообщения для технической и нетехнической аудитории, писать ясно и согласовывать заинтересованные стороны в командах
Самостоятельность: способность выявлять, что требует внимания, определять путь вперёд и выполнять задачи с минимальным контролем
Опыт наставничества старших инженеров и создания пространства для лидерства и роста других
Уверенность в работе с неопределённостью, умение переводить расплывчатые требования в конкретные решения
Подход к техническим проблемам с бизнес-ракурса, понимание стоимости и ценности инженерных решений

Желательные навыки

Отличные коммуникативные и межличностные навыки
Навыки комплексного отладки
Знания и умения в области безопасности с оборонительной и наступательной точек зрения

Ключевые обязанности

Отвечать за техническое направление домена SRE/Platform в Remote, его архитектуру, инструменты и долгосрочную дорожную карту
Определять и реализовывать стратегию надежности по всей платформе: SLO/SLI, бюджеты ошибок, наблюдаемость и зрелость управления инцидентами
Вести сложные межкомандные инфраструктурные инициативы от этапа исследования до доставки, эффективно делегируя и поддерживая соответствие проектов бизнес-целям
Выявлять и руководить инициативами по внедрению ИИ в инженерной организации, исследуя, где ИИ может снизить операционные издержки, ускорить рабочие процессы разработки, улучшить реагирование на инциденты и открыть новые возможности для инженерных команд
Продвигать автоматизацию операций платформы с помощью ИИ: интеллектуальные оповещения, автоматическая триажа инцидентов, самовосстанавливающаяся инфраструктура и ИИ-поддерживаемые инструкции, снижая рутинную работу и освобождая инженеров для задач с более высоким эффектом
Вносить вклад в планирование ёмкости и повышение экономической эффективности инфраструктуры Remote
Наставлять старших инженеров, повышая технический уровень через ревью кода, обратную связь по дизайну и практическое руководство
Сотрудничать с командой безопасности по вопросам укрепления платформы, смягчения угроз и соответствия требованиям
Быть хранителем качества инженерии в команде SRE, продвигая лучшие практики, осознанно управляя техническим долгом и повышая стандарты со временем
Участвовать в найме, адаптации и постоянном улучшении работы команды SRE

Практическая информация

Вы будете подчиняться: Директору по инженерии
Местоположение: Для этой позиции мы приглашаем всех желающих подавать заявки
Дата начала: Как можно скорее

Философия компенсаций Remote
Философия Total Rewards компании Remote заключается в обеспечении справедливой, объективной компенсации и справедливой оплаты акций наряду с конкурентоспособными льготами во всех регионах, где мы работаем. Мы не поддерживаем и не поощряем практики дешёвой рабочей силы, поэтому гарантируем оплату выше местных ставок. Мы надеемся вдохновить другие компании поддерживать глобальный найм талантов и приносить местное богатство развивающимся странам.

На первый взгляд наши диапазоны зарплат кажутся довольно широкими — вот контекст. В Remote у нас международные операции и глобально распределённая рабочая сила. Мы используем географические диапазоны, чтобы учитывать географические различия в оплате как часть нашей глобальной стратегии компенсаций, чтобы оставаться конкурентоспособными на различных рынках при глобальном найме.

Диапазон базовой зарплаты для этой позиции на полный рабочий день составляет от 188 550 до 212 150 долларов. Наши диапазоны зарплат определяются ролью, уровнем и местоположением, а наши должностные названия могут охватывать более одного карьерного уровня. Фактическая базовая оплата успешного кандидата зависит от многих факторов, таких как местоположение, переносимые или связанные с работой навыки, опыт работы, релевантное обучение, бизнес-потребности и рыночный спрос. Диапазон базовой зарплаты может быть изменён.

Staff Site Reliability Engineer

Ведущий инженер по надежности сайта I уровня

Технические навыки

Лидерские и поведенческие качества

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

DevOps-инженер

DevOps-инженер

DevOps-инженер

DevOps-инженер

DevOps Engineer

DevOps/SRE инженер