Разработчик в команду платформы надёжности Такси

Привет! Меня зовут Сергей Валиев, я руковожу командой разработки платформы надёжности сервиса Такси. Мы создаём технологии, которые напрямую влияют на аптайм и устойчивость всего бизнеса: оперативную балансировку трафика, SRE GPT, chaos engineering, виртуальные заказы, инструменты observability, anomaly detection, graceful degradation и автовосстановление. Наша задача — предотвращать инциденты и ускорять восстановление сервиса с сотнями микросервисов и миллионами пользователей. Мы анализируем отказы, устраняем корневые причины, повышаем наблюдаемость и делаем систему устойчивее к любым сбоям.

Проекты, над которыми вы будете работать:

Механизм оперативной балансировки
Мы управляем трафиком мобильных приложений в реальном времени, чтобы сервис оставался стабильным даже при сетевых сбоях. Вы будете развивать систему, которая позволяет переживать поломки DNS-резолверов и потерю связности между операторами связи и дата-центрами Яндекса. Это критически важный компонент, от которого зависит стабильность и удержание миллионов пользователей.

SRE GPT
Мы создаём интеллектуальную систему, которая мгновенно распознаёт аномалии и потенциальные инциденты. SRE GPT автоматически локализовывает проблему до конкретного сервиса или компонента, анализирует корневые причины по историческим данным и логам, выполняет типовые действия по восстановлению и передаёт сложные случаи нужным специалистам. Вы будете развивать мультиагентную RAG-архитектуру, интегрированную с инфраструктурой Яндекса через MCP-серверы, делать SRE-автоматику умнее и надёжнее.

Chaos engineering
Мы создаём управляемые сбои, чтобы проверять устойчивость системы и находить скрытые проблемы. Вам предстоит автоматизировать проведение хаос-учений, добавлять новые типы отказов и развивать инструменты наблюдаемости, чтобы система предсказуемо вела себя под нагрузкой.

Виртуальные заказы
Мы моделируем работу Такси при пиковых нагрузках, где виртуальные водители возят виртуальных пассажиров по реальным маршрутам. Вы будете развивать симулятор, анализировать производительность и находить узкие места, которые влияют на стабильность и масштабируемость системы.

Инструменты observability
Мы объединяем ключевые метрики, логи и механизмы трассировки в едином интерфейсе, который помогает инженерам быстро понимать текущее состояние системы и координировать действия при инцидентах. Вам предстоит развивать эту экосистему: улучшать сбор данных, визуализацию и сценарии взаимодействия, чтобы расследования проходили быстрее и эффективнее.

Anomaly detection
Мы анализируем поведение сервисов, чтобы заранее обнаруживать деградацию производительности и ошибки. Вы будете улучшать алгоритмы анализа, повышать точность сигналов и интеграцию с другими системами автоматизации.

Graceful degradation
Мы разрабатываем механизмы, которые позволяют временно снижать нагрузку, отключать некритичные функции и сохранять при этом основную работоспособность. Вам нужно будет проектировать и реализовывать сценарии деградации, чтобы сервис оставался доступным даже при частичных сбоях.

Автовосстановление
Мы создаём автоматику, которая реагирует на сбои, снижает нагрузку и откатывает потенциально опасные изменения. Вы будете развивать эту систему, добавлять новые сценарии реакций и повышать предсказуемость поведения сервисов при инцидентах.

Какие задачи вас ждут:

Разработка
В ваши задачи будут входить улучшение работы системы оперативной балансировки, развитие SRE GPT — инструментов интеллектуального анализа и автоматического восстановления инцидентов, создание гибкого эмулятора клиентских действий, автоматизация хаос-сценариев и анализ их влияния, разработка инструментов для анализа деградации latency.

Архитектура
Вы будете проектировать и развивать сервисы платформы надёжности, выбирать оптимальные решения и проводить технические эксперименты, оценивать влияние на устойчивость и надёжность ключевых компонентов Такси.

Исследования
Вам предстоит изучать систему и искать направления для повышения отказоустойчивости, масштабировать успешные практики на десятки команд и сотни микросервисов.

Мы ждём, что вы:

Пишете или готовы писать на Go или Python

Понимаете архитектуру распределённых систем

Умеете анализировать сложные технические задачи и предлагать решения

Интересуетесь отказоустойчивостью, observability и AI-инструментами в SRE

Будет плюсом, если вы:

Уверенно владеете навыками траблшутинга — от сбора симптомов до устранения корневой причины и профилактики повторных сбоев

Хотите повышать надёжность продукта, которым ежедневно пользуются миллионы людей

Бенефиты работы в Яндексе:

Расширенная медицинская страховка начинается с первого месяца в Яндексе.

Ментальное здоровье — врачи в клиниках по ДМС, онлайн-консультации с психологами, психотерапия в офисах.

Оплачиваемое ведение беременности и роды для сотрудниц.

Страховка для родственников по системе 80/20.

Узнать больше:

ПКФ Новая Цефея

8 июн.

Маркетолог

ЗП не указана

Смоленск

Junior

Middle

ГПБ-ИТ1

8 июн.

MLOps-инженер

ЗП не указана

Российская Федерация

Middle

Вебзайм

8 июн.

CRM-маркетолог

ЗП не указана

Санкт-Петербург

Quickcall

7 июн.

Senior CRM-маркетолог (e-commerce/ Beauty & Health)

ЗП не указана

Москва

Удалённо

Middle

PROFIT AND HORECA

7 июн.

CRM-менеджер (junior)

от 120 000 ₽

Санкт-Петербург

Офис

Junior

PROFIT AND HORECA

7 июн.

CRM-менеджер (middle)

ЗП не указана

Санкт-Петербург

Middle

DevOps-инженер

Разработчик в команду платформы надёжности Такси

Наш телеграм канал с вакансиями каждый день

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Маркетолог

MLOps-инженер

CRM-маркетолог

Senior CRM-маркетолог (e-commerce/ Beauty & Health)

CRM-менеджер (junior)

CRM-менеджер (middle)