Разработчик в команду платформы надёжности Такси
Привет! Меня зовут Сергей Валиев, я руковожу командой разработки платформы надёжности сервиса Такси. Мы создаём технологии, которые напрямую влияют на аптайм и устойчивость всего бизнеса: оперативную балансировку трафика, SRE GPT, chaos engineering, виртуальные заказы, инструменты observability, anomaly detection, graceful degradation и автовосстановление. Наша задача — предотвращать инциденты и ускорять восстановление сервиса с сотнями микросервисов и миллионами пользователей. Мы анализируем отказы, устраняем корневые причины, повышаем наблюдаемость и делаем систему устойчивее к любым сбоям.
Проекты, над которыми вы будете работать:
- Механизм оперативной балансировки
Мы управляем трафиком мобильных приложений в реальном времени, чтобы сервис оставался стабильным даже при сетевых сбоях. Вы будете развивать систему, которая позволяет переживать поломки DNS-резолверов и потерю связности между операторами связи и дата-центрами Яндекса. Это критически важный компонент, от которого зависит стабильность и удержание миллионов пользователей.
- SRE GPT
Мы создаём интеллектуальную систему, которая мгновенно распознаёт аномалии и потенциальные инциденты. SRE GPT автоматически локализовывает проблему до конкретного сервиса или компонента, анализирует корневые причины по историческим данным и логам, выполняет типовые действия по восстановлению и передаёт сложные случаи нужным специалистам. Вы будете развивать мультиагентную RAG-архитектуру, интегрированную с инфраструктурой Яндекса через MCP-серверы, делать SRE-автоматику умнее и надёжнее.
- Chaos engineering
Мы создаём управляемые сбои, чтобы проверять устойчивость системы и находить скрытые проблемы. Вам предстоит автоматизировать проведение хаос-учений, добавлять новые типы отказов и развивать инструменты наблюдаемости, чтобы система предсказуемо вела себя под нагрузкой.
- Виртуальные заказы
Мы моделируем работу Такси при пиковых нагрузках, где виртуальные водители возят виртуальных пассажиров по реальным маршрутам. Вы будете развивать симулятор, анализировать производительность и находить узкие места, которые влияют на стабильность и масштабируемость системы.
- Инструменты observability
Мы объединяем ключевые метрики, логи и механизмы трассировки в едином интерфейсе, который помогает инженерам быстро понимать текущее состояние системы и координировать действия при инцидентах. Вам предстоит развивать эту экосистему: улучшать сбор данных, визуализацию и сценарии взаимодействия, чтобы расследования проходили быстрее и эффективнее.
- Anomaly detection
Мы анализируем поведение сервисов, чтобы заранее обнаруживать деградацию производительности и ошибки. Вы будете улучшать алгоритмы анализа, повышать точность сигналов и интеграцию с другими системами автоматизации.
- Graceful degradation
Мы разрабатываем механизмы, которые позволяют временно снижать нагрузку, отключать некритичные функции и сохранять при этом основную работоспособность. Вам нужно будет проектировать и реализовывать сценарии деградации, чтобы сервис оставался доступным даже при частичных сбоях.
- Автовосстановление
Мы создаём автоматику, которая реагирует на сбои, снижает нагрузку и откатывает потенциально опасные изменения. Вы будете развивать эту систему, добавлять новые сценарии реакций и повышать предсказуемость поведения сервисов при инцидентах.
Какие задачи вас ждут:
- Разработка
В ваши задачи будут входить улучшение работы системы оперативной балансировки, развитие SRE GPT — инструментов интеллектуального анализа и автоматического восстановления инцидентов, создание гибкого эмулятора клиентских действий, автоматизация хаос-сценариев и анализ их влияния, разработка инструментов для анализа деградации latency.
- Архитектура
Вы будете проектировать и развивать сервисы платформы надёжности, выбирать оптимальные решения и проводить технические эксперименты, оценивать влияние на устойчивость и надёжность ключевых компонентов Такси.
- Исследования
Вам предстоит изучать систему и искать направления для повышения отказоустойчивости, масштабировать успешные практики на десятки команд и сотни микросервисов.
Мы ждём, что вы:
- Пишете или готовы писать на Go или Python
- Понимаете архитектуру распределённых систем
- Умеете анализировать сложные технические задачи и предлагать решения
- Интересуетесь отказоустойчивостью, observability и AI-инструментами в SRE
Будет плюсом, если вы:
- Уверенно владеете навыками траблшутинга — от сбора симптомов до устранения корневой причины и профилактики повторных сбоев
- Хотите повышать надёжность продукта, которым ежедневно пользуются миллионы людей
Бенефиты работы в Яндексе:
- Расширенная медицинская страховка начинается с первого месяца в Яндексе.
- Ментальное здоровье — врачи в клиниках по ДМС, онлайн-консультации с психологами, психотерапия в офисах.
- Оплачиваемое ведение беременности и роды для сотрудниц.
- Страховка для родственников по системе 80/20.
Больше о бенефитах
Узнать больше: