Мы — команда ML-исследователей и инженеров внутри Алисы. Строим первого в России автономного computer-use-агента, который умеет пользоваться компьютерными средами как человек: кликать, скроллить, заполнять формы, переключаться между приложениями и решать задачи пользователя автономно.
У нас уже есть работающий прототип в проде, платформа агентов на миллионы пользователей, GPU-кластеры, симуляторы сред и пайплайны обучения через GRPO-like-подходы. Нам нужен человек, который выведет RL-обучение агента на новый уровень.
Проектировать и запускать эксперименты по обучению агента взаимодействию с компьютерными средами
Вам предстоит придумывать и реализовывать новые RL-пайплайны — от формулировки reward-функций до архитектуры обучения на многошаговых траекториях с вызовами тулов. Вы будете работать с симуляторами сред и реальными траекториями: строить data flywheel от сбора данных до улучшения модели. Нужно будет обучать и файнтюнить большие модели, оптимизировать инференс для прода: FP8, дистилляцию, параллелизм.
Улучшать GUI grounding и визуальное понимание экрана (VLM-компоненты агента)
Вы будете участвовать в проектировании архитектуры агента: memory, planning, оркестрации тулов. Предстоит уделять внимание safety- и truthfulness-аспектам, доводить R&D-результаты до продакшна на платформе, обслуживающей миллионы пользователей.
Больше об ML в Яндексе — в канале Yandex for ML