Мы — команда ML-исследователей и инженеров внутри Алисы. Строим первого в России автономного computer-use-агента, который умеет пользоваться компьютерными средами как человек: кликать, скроллить, заполнять формы, переключаться между приложениями и решать задачи пользователя автономно.

У нас уже есть работающий прототип в проде, платформа агентов на миллионы пользователей, GPU-кластеры, симуляторы сред и пайплайны обучения через GRPO-like-подходы. Нам нужен человек, который выведет RL-обучение агента на новый уровень.

Какие задачи вас ждут

Проектировать и запускать эксперименты по обучению агента взаимодействию с компьютерными средами
Вам предстоит придумывать и реализовывать новые RL-пайплайны — от формулировки reward-функций до архитектуры обучения на многошаговых траекториях с вызовами тулов. Вы будете работать с симуляторами сред и реальными траекториями: строить data flywheel от сбора данных до улучшения модели. Нужно будет обучать и файнтюнить большие модели, оптимизировать инференс для прода: FP8, дистилляцию, параллелизм.

Улучшать GUI grounding и визуальное понимание экрана (VLM-компоненты агента)
Вы будете участвовать в проектировании архитектуры агента: memory, planning, оркестрации тулов. Предстоит уделять внимание safety- и truthfulness-аспектам, доводить R&D-результаты до продакшна на платформе, обслуживающей миллионы пользователей.

Больше об ML в Яндексе — в канале Yandex for ML

Мы ждем, что вы

Имеете глубокий практический опыт с DL и RL: обучали модели через GRPO, GSPO, DAPO, Dr.GRPO, понимаете нюансы reward design, знаете, почему обучение разваливается и как это чинить
Обучали большие модели — занимались файнтюнингом LLM и VLM не по туториалу, а в реальных задачах
Обладаете исследовательским мышлением: умеете находить и критически оценивать статьи, вычленять применимые идеи и быстро проверять гипотезы
Работаете с задачей от постановки эксперимента до результата в проде
Уверенно владеете Python, PyTorch

Будет плюсом, если вы

Работали с VLM: занимались их обучением, файнтюнингом, инференсом
Работали с multi-turn RL на траекториях взаимодействия с инструментами и средой
Имеете публикации на топ-конференциях: NeurIPS, ICML, ICLR, ACL и т. д.
Работали с computer use, web agents, GUI grounding

NLP-разработчик (Алиса)

Какие задачи вас ждут

Мы ждем, что вы

Будет плюсом, если вы

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

NLP-инженер

NLP Engineer (GigaChat Pretrain)