Роль
Мы создаём нашу линию поддержки L3 с нуля, чтобы стать центром экспертизы по дата-центрам для серверов, прошивок (BIOS/BMC) и глубокой диагностики Linux по всей Европе и США.
Это старшая техническая роль, ориентированная на глубокие расследования, выявление закономерностей между площадками и внедрение постоянных решений совместно с отделами исследований и разработок (R&D) и производителями ODM. Вы будете превращать сложные инциденты в масштабируемые решения и повышать возможности команд L1/L2 через сильную техническую поддержку.
Вы можете работать в нашем дата-центре в Мянтсяля, Финляндия.
Ваши обязанности будут включать:
Глубокое техническое расследование (основной фокус)
- Ведение анализа корневых причин глубже уровня L2 (сбои GPU, проблемы с прошивкой, ошибки на уровне Linux, взаимодействия аппаратного и программного обеспечения).
- Обнаружение повторяющихся закономерностей между площадками и преобразование результатов в долговременные решения.
- Ведение технических рабочих потоков во время инцидентов высокой серьёзности.
Сотрудничество с поставщиками и R&D
- Сбор доказательной базы и инициирование эскалаций с ODM и R&D.
- Продвижение решений на уровне прошивки, компонентов и платформы.
- Отслеживание результатов и обеспечение передачи знаний обратно в операционные команды.
Готовность прошивки и платформы (BIOS/BMC)
- Поддержка валидации и развертывания обновлений прошивки (оценка рисков, подготовка, планирование отката).
- Помощь в операционализации стандартов платформы по всем дата-центрам.
Знания и обучение
- Создание масштабируемых инструкций, руководств по устранению неполадок и каталогов ошибок.
- Преобразование расследований в плейбуки, которые повышают уровень команд L1/L2.
Практическая поддержка (по необходимости)
- Командировки в дата-центры для сложного устранения неполадок, подготовки новых платформ или локализации инцидентов.
Мы ожидаем, что у вас есть:
- Сильный практический опыт работы с серверами дата-центров и глубокой диагностикой Linux.
- Умение диагностировать проблемы на уровне аппаратного обеспечения, прошивки BIOS/BMC и Linux (логи, драйверы, основы хранения данных, анализ производительности).
- Опыт структурированного реагирования на инциденты и чёткое общение в стрессовых ситуациях.
- Опыт проведения эскалаций на основе доказательств с поставщиками и R&D.
- Свободное владение английским языком (письменно и устно).
Будет плюсом, если у вас есть:
- Хорошее знание платформ серверов с GPU и инструментов (например: nvidia-smi, dcgmi, корреляция логов Linux).
- Опыт работы с ipmitool и Redfish, жизненным циклом прошивки и поэтапными развертываниями.
- Навыки скриптинга (bash и базовый Python) для сбора логов, автоматизации анализа и простой оценки надёжности.
- Опыт работы с платформами на базе OCP и экосистемами производства ODM.
- Опыт поддержки корпоративных клиентов с bare metal под контрактными SLA.
Что мы предлагаем
- Конкурентоспособную зарплату и полный пакет социальных льгот.
- Возможности профессионального роста внутри компании Nebius.
- Гибкие условия работы.
- Динамичную и совместную рабочую среду, которая ценит инициативу и инновации.
Мы растём и ежедневно расширяем наши продукты. Если вы готовы к вызовам и так же увлечены ИИ и машинным обучением, как и мы, присоединяйтесь к нам!