Технологии/инструменты
Разрабатываем высокопроизводительные CUDA-операторы для PyTorch, обеспечивающие обучение и инференс мультимодальных моделей с максимальной утилизацией GPU-ресурсов. Фокус — низкоуровневая оптимизация, кастомные ядра, memory management и эффективная работа с новыми архитектурами GPU.
Обязанности
- Разработка и оптимизация кастомных CUDA-операторов и расширений для PyTorch (C++/CUDA).
- Профилирование и устранение узких мест в вычислительных ядрах (Nsight Compute, nvprof).
- Оптимизация использования памяти (shared memory, registers, coalesced access, persistent kernels).
- Реализация алгоритмов параллельных вычислений с учётом архитектурных особенностей современных GPU (Ampere, Hopper и новее).
- Интеграция CUDA-оптимизаций в распределённые пайплайны обучения и инференса.
- Тесная работа с командами Research и Distributed Learning для поддержки кастомных моделей и операторов.
Требования
- Экспертный уровень C++ и CUDA.
- Опыт оптимизации производительности для NVIDIA GPU.
- Знание внутреннего устройства PyTorch (ATen, dispatcher, TensorIterator).
- Навыки профилирования на GPU и поиска и устранения узких мест в реализации нейросетевых операторов.
- Опыт работы с Mixed Precision и кастомными кернелами.
Бонус
- Опыт с Triton, CUTLASS, cuBLASLt, NCCL; участие в open-source проектах PyTorch.
Условия
- Комфортный современный офис рядом с м. Кутузовская
- Формат работы гибрид
- Ежегодный пересмотр зарплаты, квартальная и годовая премия
- Корпоративный спортзал и зоны отдыха
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- Программа адаптации и помощь руководителя на старте
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- Ипотека выгоднее до 7% для каждого сотрудника
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- Вознаграждение за рекомендацию друзей в команду Сбера