Почему стоит работать в Nebius

Nebius возглавляет новую эру облачных вычислений для обслуживания глобальной экономики ИИ. Мы создаём инструменты и ресурсы, необходимые нашим клиентам для решения реальных задач и трансформации отраслей, без огромных затрат на инфраструктуру или необходимости создавать большие внутренние команды по ИИ/МО. Наши сотрудники работают на переднем крае облачной инфраструктуры ИИ вместе с одними из самых опытных и инновационных лидеров и инженеров в этой области.

Где мы работаем

Штаб-квартира находится в Амстердаме, компания котируется на Nasdaq, Nebius имеет глобальное присутствие с исследовательскими центрами в Европе, Северной Америке и Израиле. Команда из более чем 800 сотрудников включает более 400 высококвалифицированных инженеров с глубокими знаниями в области аппаратного и программного обеспечения, а также внутреннюю команду по исследованиям и разработкам в области ИИ.

Опыт работы с клиентами:

Опыт работы с клиентами в Nebius AI Cloud включает решение задач клиентов и непосредственное влияние на их успех, решая реальные проблемы ИИ и МО в масштабах облака с использованием мощных GPU. Вы не только будете устранять проблемы, но и играть ключевую роль в формировании бизнес-успеха клиентов, оптимизируя их ИИ-решения. Работая с передовыми GPU, такими как H200, B200 и GB200, а также современными фреймворками МО, вы будете влиять на развитие Nebius AI Cloud и приобретать опыт на стыке инфраструктуры и ИИ. При минимальной бюрократии у вас будет свобода для инноваций, принятия ответственности и внесения изменений. Возможности для роста обильны в этом живом и поддерживающем профессиональном сообществе.

Роль

Мы ищем специалиста по архитектуре решений HPC-инфраструктуры для проектирования, создания и оптимизации платформ высокопроизводительных вычислений (HPC) следующего поколения для ИИ, моделирования и обработки больших данных. Идеальный кандидат сочетает глубокие знания облачной архитектуры, оркестрации Kubernetes, сетевых технологий и проектирования HPC-систем с практическим опытом внедрения вычислительных сред на базе GPU NVIDIA и инструментов MLOps. Эта роль находится на пересечении инженерии инфраструктуры, ускоренных вычислений и проектирования систем ИИ, формируя основу для распределённых рабочих нагрузок с высокой пропускной способностью и низкой задержкой в облачной среде.

Вы можете работать удалённо из США или Канады.

Ваши обязанности будут включать:

Проектирование и внедрение масштабируемых HPC-кластеров, оптимизированных для ИИ, моделирования и распределённого обучения, с использованием фреймворков оркестрации контейнеров и планировщиков (например, Kubernetes, Slurm).
Проектирование и интеграция вычислительной инфраструктуры с ускорением на GPU, включая архитектуры NVIDIA Hopper, Blackwell, NVLink/NVSwitch и межсоединения InfiniBand/RoCE.
Развёртывание и управление стеками GPU Operator и Network Operator для автоматизированного управления жизненным циклом компонентов GPU и высокоскоростных сетей.
Проектирование и валидация облачных HPC-сред с акцентом на низкую задержку, высокую пропускную способность сети, масштабирование с несколькими GPU и эффективное планирование рабочих нагрузок.
Руководство референсными архитектурами для обучения моделей ИИ/МО, конвейеров данных и интеграций MLOps с использованием современных инструментов наблюдаемости и CI/CD.
Сотрудничество с поставщиками оборудования (например, NVIDIA) и облачными провайдерами для оценки и оптимизации новых технологий HPC и GPU.
Тестирование производительности системы, выявление узких мест и настройка использования ресурсов в вычислительном, сетевом и хранилищном уровнях.
Предоставление экспертных технических консультаций клиентам, внутренним командам и партнёрам по архитектурным паттернам HPC, обзорам операционного совершенства и взаимодействиям с клиентами.

Мы ожидаем, что у вас есть:

Степень бакалавра или магистра в области компьютерных наук, инженерии или смежной области (Ph.D. будет плюсом).
Более 3 лет практического опыта проектирования HPC или крупных GPU-кластеров.
Экспертные знания Linux-систем, Kubernetes, контейнерных сред (containers, CRI-O, Docker) и связанных практик CI/CD.
Глубокое понимание сетевых протоколов HPC и стеков RDMA (InfiniBand, NVLink/NVSwitch).
Глубокое понимание оптимизации хранения и ввода-вывода для больших наборов данных (Ceph, Lustre, NFS, GPUDirect Storage).
Знакомство с Terraform, Ansible, Helm и GitOps-процессами.
Сильные навыки скриптинга на Python или Bash для автоматизации и интеграции инструментов.
Отличные коммуникативные и документальные навыки; способность проводить обзоры дизайна и взаимодействовать с клиентами.

Будет плюсом, если у вас есть:

Опыт работы с экосистемой GPU NVIDIA: GPU Operator, MIG, DCGM, NCCL, Nsight и управление стеком CUDA.
Опыт проектирования или управления конвейерами ИИ/МО с использованием MLflow, Kubeflow, NeMo или аналогичных фреймворков.
Опыт работы с облачными HPC-решениями (Slurm, LFS, PBS и др.).
Опыт проектирования многопользовательской GPU-инфраструктуры или ферм для обучения ИИ.
Знакомство с распределёнными фреймворками МО (PyTorch DDP, DeepSpeed, Megatron).
Знания в области наблюдаемости HPC (Prometheus, DCGM Exporter, Grafana, инструменты мониторинга NVIDIA NGC).
Вклад в проекты с открытым исходным кодом HPC/CUDA/Kubernetes будет большим плюсом.

Основные преимущества для сотрудников:

Медицинская страховка: 100% оплата компанией медицинского, стоматологического и офтальмологического страхования для сотрудников и их семей.
Пенсионный план 401(k): до 4% софинансирования компанией с немедленным правом собственности.
Отпуск по уходу за ребёнком: 20 недель оплачиваемого отпуска для основных опекунов, 12 недель для вторичных.
Компенсация за удалённую работу: до 85 долларов в месяц на мобильную связь и интернет.
Страхование по инвалидности и жизни: оплачиваемое компанией краткосрочное, долгосрочное и страхование жизни.

Компенсация

Мы предлагаем конкурентоспособные зарплаты в диапазоне от 225 000 до 315 000 долларов США OTE (доход при достижении целей) и акции в зависимости от вашего опыта, навыков и местоположения.

Присоединяйтесь к Nebius сегодня!

Что мы предлагаем

Конкурентоспособную зарплату и комплексный пакет льгот.
Возможности профессионального роста внутри Nebius.
Гибкие условия работы.
Динамичную и совместную рабочую среду, которая ценит инициативу и инновации.

Мы растём и ежедневно расширяем наши продукты. Если вы готовы к вызовам и так же увлечены ИИ и МО, как и мы, присоединяйтесь к нам!

HPC Specialist Solutions Architect

Почему стоит работать в Nebius

Где мы работаем

Опыт работы с клиентами:

Роль

Ваши обязанности будут включать:

Мы ожидаем, что у вас есть:

Будет плюсом, если у вас есть:

Основные преимущества для сотрудников:

Компенсация

Присоединяйтесь к Nebius сегодня!

Что мы предлагаем

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Системный администратор ИБ

Infrastructure Engineer (Москва)

Системный администратор ИБ

Системный администратор ИБ

Site Reliability Engineer

Инженер инфраструктуры / SRE / Системный инженер

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Системный администратор ИБ

Infrastructure Engineer (Москва)

Системный администратор ИБ

Системный администратор ИБ

Site Reliability Engineer

Инженер инфраструктуры / SRE / Системный инженер