Почему эта роль важна
Вы будете проектировать и эксплуатировать локальную AI-платформу для развертывания и масштабирования моделей, работая с многозвенными GPU-кластерами, распределёнными системами и Kubernetes. Вы будете отвечать за создание надёжной и эффективной инфраструктуры для масштабного вывода моделей, обеспечивая оптимальное использование GPU, производительность и доступность платформы.
Роль базируется в нашем офисе в Лимассоле, Кипр. В случае переезда мы предлагаем полную поддержку при релокации для вас и вашей семьи, чтобы сделать ваш переезд плавным и беззаботным.
Что вы будете делать на самом деле
- Тесное сотрудничество с инфраструктурными командами по выбору и настройке GPU-серверов, высокопроизводительных сетей и кластеров с поддержкой RDMA.
- Выполнение и управление конфигурациями GPU MIG в зависимости от требований нагрузки и характеристик моделей.
- Обеспечение надёжной и масштабируемой работы GPU в Kubernetes, включая интеграцию времени выполнения, плагины устройств и возможности планирования GPU.
- Проектирование, развертывание и поддержка сред выполнения для обслуживания моделей, включая vLLM, ONNX, SGLang, Nvidia Triton Runtimes и KServe, обеспечивая высокую производительность, масштабируемость и эффективное использование GPU.
- Создание и поддержка CI/CD пайплайнов и инструментов для упаковки моделей, версионирования и развертывания, обеспечивая надёжную доставку моделей для внутренних команд.
- Создание и поддержка инструментов платформы для управления жизненным циклом моделей, включая отслеживание экспериментов, версионирование моделей и системы реестров (например, MLflow).
- Обеспечение инфраструктуры и рабочих процессов для дообучения и адаптации моделей (например, LoRA), с акцентом на масштабируемость, воспроизводимость и автоматизацию внутри платформы.
- Разработка и поддержка внутренних инструментов для управления входными данными моделей и конфигурациями (например, шаблоны подсказок), обеспечивая последовательные и повторно используемые шаблоны использования моделей.
- Проведение тестирования производительности и оценки многозвенных GPU-кластеров для выявления и устранения узких мест.
- Создание и поддержка систем наблюдаемости для GPU-кластеров и рабочих нагрузок моделей, включая метрики использования GPU, памяти, пропускной способности и задержек.
- Интеграция трассировки рабочих процессов вывода моделей для обеспечения сквозной видимости запросов и поведения моделей.
- Обеспечение соответствия требованиям безопасности при разработке платформы.
- Оценка и бенчмаркинг производительности вывода моделей на различных средах выполнения, аппаратных конфигурациях и настройках для оптимизации платформы.
Кого мы ищем
- Степень бакалавра или магистра в области компьютерных наук, инженерии или смежной технической области
- Опыт работы 5+ лет в инфраструктуре, платформенной инженерии или распределённых системах, предпочтительно в средах, связанных с машинным обучением или нагрузками на GPU
- Глубокий опыт работы с Kubernetes, включая развертывание и эксплуатацию производственных нагрузок
- Опыт работы в Linux-средах
- Сильные навыки программирования на Python и/или Go
- Опыт работы с GPU-инфраструктурой, включая стеки NVIDIA или AMD и многогпу-среды, будет большим преимуществом
- Понимание распределённых систем и многозвенных нагрузок
- Опыт работы с системами обслуживания и вывода моделей (например, vLLM, ONNX, SGLang, Nvidia Triton Runtimes, KServe)
- Опыт работы с CI/CD пайплайнами и автоматизацией развертывания сервисов или моделей
- Опыт работы с инструментами мониторинга и наблюдаемости (метрики, трассировка, логирование)
- Желательно знание сетевых концепций, актуальных для распределённых систем (например, RDMA, высокопроизводительные сети)
- Хорошие коммуникативные и навыки решения проблем
- Способность использовать продвинутый английский язык для различных рабочих и деловых целей
- Критическое мышление и внимание к деталям
- Навыки принятия решений и способность адаптироваться к изменениям
- Умение писать краткую и понятную документацию
- Способность воспринимать конструктивную критику и умение выстраивать отношения в команде для достижения общих целей
Что мы предлагаем на этом пути
- Конкурентоспособная зарплата и ежегодный бонус за результаты
- Полная поддержка при релокации для вас и вашей семьи — перелёты, жильё, визы и юридическая помощь включены
- Страхование здоровья высшего уровня с полной семейной страховкой — медицинское, стоматологическое, офтальмологическое, психическое здоровье — плюс страхование жизни для душевного спокойствия
- Неограниченные возможности для обучения: внешние курсы, уроки английского, развитие карьеры и лидерских навыков
- Образовательное пособие, покрывающее оплату школы и детского сада
- 21 рабочий день ежегодного отпуска, плюс государственные праздники и полностью оплачиваемый больничный, декретный и отпуск по уходу за ребёнком
- Программа признания сотрудников: брендированные подарки, выходные на день рождения, бюджеты на празднование свадеб, новорождённых и важных событий
- Поездки «Познакомьтесь с командой» — встречи с коллегами из наших глобальных офисов, а также общекорпоративные выездные мероприятия, повышающие планку
- Программа акций для сотрудников — развивайтесь вместе с нами
- Фирменный служебный автомобиль MINI Cooper Countryman и частная парковка
- Бесплатные внутренние спортивные клубы, доступ в спортзал Sanctum Club и гидроциклы
- Доступ к корпоративному врачу
- Эксклюзивная программа скидок в кафе, спортзалах и местных сервисах
- Налоговые льготы для экспатов: до 50% освобождения от подоходного налога
- Поддержка в процессе натурализации для сотрудников, переезжающих к нам
Как выглядит ваш путь
- Вводный звонок с рекрутером (30 минут)
- Техническое интервью (90 минут)
- Поведенческое интервью (60 минут)
Пожалуйста, используйте ваш рабочий email Exness для внутренних заявок и обязательно указывайте любые существующие конфликты интересов, которые у вас могут быть.