Почему эта роль важна

Вы будете проектировать и эксплуатировать локальную AI-платформу для развертывания и масштабирования моделей, работая с многозвенными GPU-кластерами, распределёнными системами и Kubernetes. Вы будете отвечать за создание надёжной и эффективной инфраструктуры для масштабного вывода моделей, обеспечивая оптимальное использование GPU, производительность и доступность платформы.

Роль базируется в нашем офисе в Лимассоле, Кипр. В случае переезда мы предлагаем полную поддержку при релокации для вас и вашей семьи, чтобы сделать ваш переезд плавным и беззаботным.

Что вы будете делать на самом деле

Тесное сотрудничество с инфраструктурными командами по выбору и настройке GPU-серверов, высокопроизводительных сетей и кластеров с поддержкой RDMA.
Выполнение и управление конфигурациями GPU MIG в зависимости от требований нагрузки и характеристик моделей.
Обеспечение надёжной и масштабируемой работы GPU в Kubernetes, включая интеграцию времени выполнения, плагины устройств и возможности планирования GPU.
Проектирование, развертывание и поддержка сред выполнения для обслуживания моделей, включая vLLM, ONNX, SGLang, Nvidia Triton Runtimes и KServe, обеспечивая высокую производительность, масштабируемость и эффективное использование GPU.
Создание и поддержка CI/CD пайплайнов и инструментов для упаковки моделей, версионирования и развертывания, обеспечивая надёжную доставку моделей для внутренних команд.
Создание и поддержка инструментов платформы для управления жизненным циклом моделей, включая отслеживание экспериментов, версионирование моделей и системы реестров (например, MLflow).
Обеспечение инфраструктуры и рабочих процессов для дообучения и адаптации моделей (например, LoRA), с акцентом на масштабируемость, воспроизводимость и автоматизацию внутри платформы.
Разработка и поддержка внутренних инструментов для управления входными данными моделей и конфигурациями (например, шаблоны подсказок), обеспечивая последовательные и повторно используемые шаблоны использования моделей.
Проведение тестирования производительности и оценки многозвенных GPU-кластеров для выявления и устранения узких мест.
Создание и поддержка систем наблюдаемости для GPU-кластеров и рабочих нагрузок моделей, включая метрики использования GPU, памяти, пропускной способности и задержек.
Интеграция трассировки рабочих процессов вывода моделей для обеспечения сквозной видимости запросов и поведения моделей.
Обеспечение соответствия требованиям безопасности при разработке платформы.
Оценка и бенчмаркинг производительности вывода моделей на различных средах выполнения, аппаратных конфигурациях и настройках для оптимизации платформы.

Кого мы ищем

Степень бакалавра или магистра в области компьютерных наук, инженерии или смежной технической области
Опыт работы 5+ лет в инфраструктуре, платформенной инженерии или распределённых системах, предпочтительно в средах, связанных с машинным обучением или нагрузками на GPU
Глубокий опыт работы с Kubernetes, включая развертывание и эксплуатацию производственных нагрузок
Опыт работы в Linux-средах
Сильные навыки программирования на Python и/или Go
Опыт работы с GPU-инфраструктурой, включая стеки NVIDIA или AMD и многогпу-среды, будет большим преимуществом
Понимание распределённых систем и многозвенных нагрузок
Опыт работы с системами обслуживания и вывода моделей (например, vLLM, ONNX, SGLang, Nvidia Triton Runtimes, KServe)
Опыт работы с CI/CD пайплайнами и автоматизацией развертывания сервисов или моделей
Опыт работы с инструментами мониторинга и наблюдаемости (метрики, трассировка, логирование)
Желательно знание сетевых концепций, актуальных для распределённых систем (например, RDMA, высокопроизводительные сети)
Хорошие коммуникативные и навыки решения проблем
Способность использовать продвинутый английский язык для различных рабочих и деловых целей
Критическое мышление и внимание к деталям
Навыки принятия решений и способность адаптироваться к изменениям
Умение писать краткую и понятную документацию
Способность воспринимать конструктивную критику и умение выстраивать отношения в команде для достижения общих целей

Что мы предлагаем на этом пути

Конкурентоспособная зарплата и ежегодный бонус за результаты
Полная поддержка при релокации для вас и вашей семьи — перелёты, жильё, визы и юридическая помощь включены
Страхование здоровья высшего уровня с полной семейной страховкой — медицинское, стоматологическое, офтальмологическое, психическое здоровье — плюс страхование жизни для душевного спокойствия
Неограниченные возможности для обучения: внешние курсы, уроки английского, развитие карьеры и лидерских навыков
Образовательное пособие, покрывающее оплату школы и детского сада
21 рабочий день ежегодного отпуска, плюс государственные праздники и полностью оплачиваемый больничный, декретный и отпуск по уходу за ребёнком
Программа признания сотрудников: брендированные подарки, выходные на день рождения, бюджеты на празднование свадеб, новорождённых и важных событий
Поездки «Познакомьтесь с командой» — встречи с коллегами из наших глобальных офисов, а также общекорпоративные выездные мероприятия, повышающие планку
Программа акций для сотрудников — развивайтесь вместе с нами
Фирменный служебный автомобиль MINI Cooper Countryman и частная парковка
Бесплатные внутренние спортивные клубы, доступ в спортзал Sanctum Club и гидроциклы
Доступ к корпоративному врачу
Эксклюзивная программа скидок в кафе, спортзалах и местных сервисах
Налоговые льготы для экспатов: до 50% освобождения от подоходного налога
Поддержка в процессе натурализации для сотрудников, переезжающих к нам

Как выглядит ваш путь

Вводный звонок с рекрутером (30 минут)
Техническое интервью (90 минут)
Поведенческое интервью (60 минут)

Пожалуйста, используйте ваш рабочий email Exness для внутренних заявок и обязательно указывайте любые существующие конфликты интересов, которые у вас могут быть.

DataOps Engineer

Почему эта роль важна

Что вы будете делать на самом деле

Кого мы ищем

Что мы предлагаем на этом пути

Как выглядит ваш путь

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Разработчик ИИ-агента

Руководитель направления Online RL (GigaChat)

ML-инженер

Python-разработчик (Исследования и аналитика)

ML-разработчик (Плюс)

Senior ML Engineer / Data Scientist

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Разработчик ИИ-агента

Руководитель направления Online RL (GigaChat)

ML-инженер

Python-разработчик (Исследования и аналитика)

ML-разработчик (Плюс)

Senior ML Engineer / Data Scientist