Мы ищем инженера по инфраструктуре ИИ для присоединения к нашей растущей команде. Мы работаем с Kubernetes, Slurm, Python, C++, PyTorch и в основном на AWS. В роли инженера по инфраструктуре ИИ вы будете тесно сотрудничать с нашими командами по инференсу и исследованиям для создания, развертывания и оптимизации наших масштабных кластеров для обучения и инференса ИИ.
Проектирование, развертывание и поддержка масштабируемых кластеров Kubernetes для рабочих нагрузок по инференсу и обучению моделей ИИ
Управление и оптимизация HPC-сред на базе Slurm для распределённого обучения больших языковых моделей
Разработка надёжных API и систем оркестрации как для конвейеров обучения, так и для сервисов инференса
Реализация систем планирования ресурсов и управления заданиями в гетерогенных вычислительных средах
Оценка производительности системы, диагностика узких мест и внедрение улучшений как в инфраструктуре обучения, так и инференса
Создание решений для мониторинга, оповещений и наблюдаемости, адаптированных под ML-нагрузки, работающие на Kubernetes и Slurm
Быстрая реакция на сбои системы и сотрудничество с командами для поддержания высокого времени безотказной работы критически важных обучающих задач и сервисов инференса
Оптимизация использования кластера и внедрение стратегий автоскейлинга для динамических требований рабочих нагрузок
Глубокие знания администрирования Kubernetes, включая определение пользовательских ресурсов, операторов и управление кластерами
Практический опыт работы с системой управления нагрузками Slurm, включая планирование заданий, распределение ресурсов и оптимизацию кластера
Опыт развертывания и управления распределёнными системами обучения в масштабе
Глубокое понимание оркестрации контейнеров и архитектуры распределённых систем
Хорошее знакомство с архитектурой больших языковых моделей и процессами их обучения (Multi-Head Attention, Multi/Grouped-Query, стратегии распределённого обучения)
Опыт управления GPU-кластерами и оптимизации использования вычислительных ресурсов
Экспертный уровень администрирования Kubernetes и управления конфигурациями YAML
Умение работать с планированием заданий Slurm, управлением ресурсами и конфигурацией кластера
Программирование на Python и C++ с акцентом на системы и автоматизацию инфраструктуры
Практический опыт работы с ML-фреймворками, такими как PyTorch, в контексте распределённого обучения
Хорошее понимание сетевых технологий, систем хранения и управления вычислительными ресурсами для ML-нагрузок
Опыт разработки API и управления распределёнными системами как для пакетных, так и для реального времени рабочих нагрузок
Уверенные навыки отладки и мониторинга с экспертизой в инструментах наблюдаемости для контейнеризированных сред
Опыт работы с операторами Kubernetes и пользовательскими контроллерами для ML-нагрузок
Продвинутое администрирование Slurm, включая федерацию мультикластеров и продвинутые политики планирования
Знакомство с управлением GPU-кластерами и оптимизацией CUDA
Опыт работы с другими ML-фреймворками, такими как TensorFlow, или библиотеками распределённого обучения
Опыт работы в HPC-средах, параллельных вычислениях и высокопроизводительных сетях
Знание инфраструктуры как кода (Terraform, Ansible) и практик GitOps
Опыт работы с реестрами контейнеров, оптимизацией образов и многоступенчатыми сборками для ML-нагрузок
Подтверждённый опыт управления крупномасштабными развертываниями Kubernetes в производственных средах
Доказанный опыт администрирования кластеров Slurm и управления HPC-нагрузками
Предыдущие роли в SRE, DevOps или платформенной инженерии с фокусом на инфраструктуру ML
Опыт поддержки как длительных обучающих задач, так и высокодоступных сервисов инференса
Идеально 3-5 лет релевантного опыта в развертывании ML-систем с особым вниманием к оркестрации кластеров и управлению ресурсами