Почему стоит работать в Nebius
Nebius возглавляет новую эру облачных вычислений для обслуживания глобальной экономики ИИ. Мы создаём инструменты и ресурсы, необходимые нашим клиентам для решения реальных задач и трансформации отраслей, без огромных затрат на инфраструктуру или необходимости создавать большие внутренние команды по ИИ/МО. Наши сотрудники работают на переднем крае облачной инфраструктуры ИИ вместе с одними из самых опытных и инновационных лидеров и инженеров в этой области.
Где мы работаем
Штаб-квартира находится в Амстердаме, компания котируется на Nasdaq, Nebius имеет глобальное присутствие с исследовательскими центрами в Европе, Северной Америке и Израиле. Команда из более чем 800 сотрудников включает более 400 высококвалифицированных инженеров с глубокими знаниями в области аппаратного и программного обеспечения, а также внутреннюю команду по исследованиям и разработкам в области ИИ.
Опыт работы с клиентами:
Опыт работы с клиентами в Nebius AI Cloud включает решение задач клиентов и непосредственное влияние на их успех, решая реальные проблемы ИИ и МО в масштабах облака с использованием мощных GPU. Вы не только будете устранять проблемы, но и играть ключевую роль в формировании бизнес-успеха клиентов, оптимизируя их ИИ-решения. Работая с передовыми GPU, такими как H200, B200 и GB200, а также современными фреймворками МО, вы будете влиять на развитие Nebius AI Cloud и приобретать опыт на стыке инфраструктуры и ИИ. При минимальной бюрократии у вас будет свобода для инноваций, принятия ответственности и внесения изменений. Возможности для роста обильны в этом живом и поддерживающем профессиональном сообществе.
Роль
Мы ищем специалиста по архитектуре решений HPC-инфраструктуры для проектирования, создания и оптимизации платформ высокопроизводительных вычислений (HPC) следующего поколения для ИИ, моделирования и обработки больших данных. Идеальный кандидат сочетает глубокие знания облачной архитектуры, оркестрации Kubernetes, сетевых технологий и проектирования HPC-систем с практическим опытом внедрения вычислительных сред на базе GPU NVIDIA и инструментов MLOps. Эта роль находится на пересечении инженерии инфраструктуры, ускоренных вычислений и проектирования систем ИИ, формируя основу для распределённых рабочих нагрузок с высокой пропускной способностью и низкой задержкой в облачной среде.
Вы можете работать удалённо из США или Канады.
Ваши обязанности будут включать:
- Проектирование и внедрение масштабируемых HPC-кластеров, оптимизированных для ИИ, моделирования и распределённого обучения, с использованием фреймворков оркестрации контейнеров и планировщиков (например, Kubernetes, Slurm).
- Проектирование и интеграция вычислительной инфраструктуры с ускорением на GPU, включая архитектуры NVIDIA Hopper, Blackwell, NVLink/NVSwitch и межсоединения InfiniBand/RoCE.
- Развёртывание и управление стеками GPU Operator и Network Operator для автоматизированного управления жизненным циклом компонентов GPU и высокоскоростных сетей.
- Проектирование и валидация облачных HPC-сред с акцентом на низкую задержку, высокую пропускную способность сети, масштабирование с несколькими GPU и эффективное планирование рабочих нагрузок.
- Руководство референсными архитектурами для обучения моделей ИИ/МО, конвейеров данных и интеграций MLOps с использованием современных инструментов наблюдаемости и CI/CD.
- Сотрудничество с поставщиками оборудования (например, NVIDIA) и облачными провайдерами для оценки и оптимизации новых технологий HPC и GPU.
- Тестирование производительности системы, выявление узких мест и настройка использования ресурсов в вычислительном, сетевом и хранилищном уровнях.
- Предоставление экспертных технических консультаций клиентам, внутренним командам и партнёрам по архитектурным паттернам HPC, обзорам операционного совершенства и взаимодействиям с клиентами.
Мы ожидаем, что у вас есть:
- Степень бакалавра или магистра в области компьютерных наук, инженерии или смежной области (Ph.D. будет плюсом).
- Более 3 лет практического опыта проектирования HPC или крупных GPU-кластеров.
- Экспертные знания Linux-систем, Kubernetes, контейнерных сред (containers, CRI-O, Docker) и связанных практик CI/CD.
- Глубокое понимание сетевых протоколов HPC и стеков RDMA (InfiniBand, NVLink/NVSwitch).
- Глубокое понимание оптимизации хранения и ввода-вывода для больших наборов данных (Ceph, Lustre, NFS, GPUDirect Storage).
- Знакомство с Terraform, Ansible, Helm и GitOps-процессами.
- Сильные навыки скриптинга на Python или Bash для автоматизации и интеграции инструментов.
- Отличные коммуникативные и документальные навыки; способность проводить обзоры дизайна и взаимодействовать с клиентами.
Будет плюсом, если у вас есть:
- Опыт работы с экосистемой GPU NVIDIA: GPU Operator, MIG, DCGM, NCCL, Nsight и управление стеком CUDA.
- Опыт проектирования или управления конвейерами ИИ/МО с использованием MLflow, Kubeflow, NeMo или аналогичных фреймворков.
- Опыт работы с облачными HPC-решениями (Slurm, LFS, PBS и др.).
- Опыт проектирования многопользовательской GPU-инфраструктуры или ферм для обучения ИИ.
- Знакомство с распределёнными фреймворками МО (PyTorch DDP, DeepSpeed, Megatron).
- Знания в области наблюдаемости HPC (Prometheus, DCGM Exporter, Grafana, инструменты мониторинга NVIDIA NGC).
- Вклад в проекты с открытым исходным кодом HPC/CUDA/Kubernetes будет большим плюсом.
Основные преимущества для сотрудников:
- Медицинская страховка: 100% оплата компанией медицинского, стоматологического и офтальмологического страхования для сотрудников и их семей.
- Пенсионный план 401(k): до 4% софинансирования компанией с немедленным правом собственности.
- Отпуск по уходу за ребёнком: 20 недель оплачиваемого отпуска для основных опекунов, 12 недель для вторичных.
- Компенсация за удалённую работу: до 85 долларов в месяц на мобильную связь и интернет.
- Страхование по инвалидности и жизни: оплачиваемое компанией краткосрочное, долгосрочное и страхование жизни.
Компенсация
Мы предлагаем конкурентоспособные зарплаты в диапазоне от 225 000 до 315 000 долларов США OTE (доход при достижении целей) и акции в зависимости от вашего опыта, навыков и местоположения.
Присоединяйтесь к Nebius сегодня!
Что мы предлагаем
- Конкурентоспособную зарплату и комплексный пакет льгот.
- Возможности профессионального роста внутри Nebius.
- Гибкие условия работы.
- Динамичную и совместную рабочую среду, которая ценит инициативу и инновации.
Мы растём и ежедневно расширяем наши продукты. Если вы готовы к вызовам и так же увлечены ИИ и МО, как и мы, присоединяйтесь к нам!