Менеджер SRE
TradingView — это платформа №1 в мире для всего, что связано с инвестициями. Более 100 миллионов пользователей доверяют нам, чтобы принимать решения по торговле. Хотите повлиять на будущее? Подайте заявку сейчас — помогите формировать будущее финансов.
TradingView — крупнейшая в мире платформа финансового анализа с более чем 100 миллионами пользователей в более чем 180 странах.
Мы создаём инструменты, которые помогают трейдерам и инвесторам принимать обоснованные решения — от продвинутого построения графиков и рыночных данных до функций совместной работы и публикации. Наши продукты ежедневно используют миллионы людей, а компании, такие как Revolut, Binance и CME Group, доверяют нам.
Мы продолжаем расти и масштабировать нашу платформу, и ищем людей, которые заботятся о качестве продукта, берут на себя ответственность за свою работу и хотят создавать системы, используемые глобальной аудиторией.
О команде
Мы — команда HUB SRE — группа, отвечающая за надёжность, доступность и производительность одних из самых критичных и нагруженных сервисов компании.
Наша инфраструктура — это гибридная среда: сочетание облачных сервисов и собственных серверов bare-metal, каждый из которых имеет свою операционную модель и зоны отказа. Мы не просто поддерживаем работу — мы проектируем надёжность в систему.
Обязанности
- Руководить и управлять командой HUB SRE, формируя культуру, основанную на принципах SRE: SLO как контракты, бюджеты ошибок как инструменты принятия решений, постоянное сокращение рутинной работы.
- Определять, внедрять и продвигать SLO/SLI/бюджеты ошибок для самых критичных сервисов компании — делать надёжность измеримой и управляемой.
- Сокращать рутинную работу: выявлять повторяющиеся операционные задачи, устанавливать бюджеты рутинной работы и обеспечивать, чтобы команда большую часть времени занималась инженерными задачами, а не тушением пожаров.
- Отвечать за процессы управления инцидентами: ротации дежурств, структурированный ответ на инциденты, безвиновные разборы после инцидентов и выполнение последующих действий.
- Строить и улучшать наблюдаемость по всему стеку: метрики, оповещения, распределённое трассирование и дашборды, которые дают командам понимание поведения системы в реальном времени — а не просто статус системы.
- Вести планирование ёмкости и оптимизацию производительности: обеспечивать, чтобы критичные сервисы справлялись с ростом без деградации, моделировать потребности в ресурсах и предотвращать сбои до их возникновения.
- Сотрудничать с командами backend HUB как партнёр по надёжности: проверять архитектуры на предмет возможных отказов, продвигать улучшения надёжности и отстаивать ограничения бюджетов ошибок.
- Строить и развивать CI/CD пайплайны для однокликовых деплоев с автоматическими откатами и прогрессивной доставкой — делать деплой безопасным и рутинным.
- Продвигать операции, основанные на runbook: обеспечивать, чтобы каждая критичная процедура была задокументирована, протестирована и готова к выполнению в стрессовых условиях.
- Наставлять инженеров в практиках и мышлении SRE, помогать им расти и строить команду, которая сочетает операционное совершенство с инженерными амбициями.
Что делает вас идеальным кандидатом
- Подтверждённый опыт работы менеджером инженерной команды, лидером SRE или лидером по надёжности с управлением командой инженеров.
- Глубокое понимание дисциплины SRE: SLO/SLI, бюджеты ошибок, классификация рутинной работы, планирование ёмкости, управление инцидентами — не только инструменты, но и философия и организационные практики.
- Сильный технический бэкграунд в backend-системах, Linux, сетях и распределённых системах — вы глубоко понимаете сервисы, за которые отвечает ваша команда.
- Опыт работы с гибридной инфраструктурой: облачные провайдеры и bare-metal серверы, понимание компромиссов надёжности каждого из них.
- Опыт построения и улучшения наблюдаемости: мониторинг, стратегии оповещений, распределённое трассирование и информативные дашборды.
- Опыт построения и оптимизации CI/CD пайплайнов для сложных многосервисных сред.
- Сильные навыки управления инцидентами: структурированный ответ, безвиновные разборы, инициирование системных улучшений после инцидентов.
- Отличные коммуникативные навыки, умение управлять людьми и влиять на инженерные команды, которыми вы не управляете напрямую.
Будет плюсом
- Опыт работы с высоконагруженными системами, обслуживающими миллионы запросов с жёсткими требованиями к задержкам и доступности.
- Опыт работы с bare-metal серверами: provisioning, сети, обработка аппаратных сбоев.
- Знакомство с хаос-инжинирингом или проактивным тестированием надёжности (game days, fault injection).
- Опыт определения моделей компенсации дежурств, устойчивых ротаций дежурств и рамок эскалации.
- Опыт в инженерии производительности: профилирование, нагрузочное тестирование, анализ узких мест.
- Знание инструментов Infrastructure-as-Code (Terraform, Ansible).
Что мы предлагаем
- Гибкий график работы и гибридный формат работы
- Хорошо оборудованные офисы для сосредоточенной и совместной работы
- Глобальная распределённая команда из более чем 500 профессионалов
- Обучение, наставничество и долгосрочный карьерный рост
- Поддержка при переезде и частная медицинская страховка
- Бонусы по результатам работы
- Доступ к TradingView Premium
- Регулярные командные мероприятия и общекорпоративные встречи
Присоединяйтесь к команде TradingView и помогите нам создавать продукт, которым пользуются миллионы трейдеров и инвесторов по всему миру. Мы с нетерпением ждём вашего отклика!
TradingView — работодатель, предоставляющий равные возможности. Мы ценим разнообразие и стремимся создавать разнообразную и инклюзивную рабочую среду. Наш успех обеспечивают более 600 профессионалов из более чем 40 стран, говорящих почти на 20 языках.