Инженер по обучению с подкреплением_Локоманипуляция
Здесь, в Humanoid, мы верим в будущее, где роботы усиливают человеческий потенциал. Именно поэтому мы поставили перед собой задачу создать самые способные, коммерчески масштабируемые и безопасные гуманоидные роботы в мире. Мы воплощаем эту миссию в жизнь с помощью HMND‑01 Alpha — нашей быстроразвивающейся гуманоидной платформы, которая уже работает в реальных промышленных пилотах — и расширяем команду, чтобы продвинуться ещё дальше.
О роли
Мы ищем старшего или ведущего инженера по обучению с подкреплением для разработки управляющих политик на основе обучения для гуманоидных роботов.
Вы будете проектировать и обучать политики обучения с подкреплением, которые обеспечивают динамическую локомоцию и поведение локоманипуляции на реальных роботах. Ваша работа будет сосредоточена на создании масштабируемых обучающих конвейеров, проектировании функций вознаграждения и сред, а также улучшении переноса из симуляции в реальность для надежного развертывания на аппаратном обеспечении.
Вы будете тесно сотрудничать с инженерами по управлению и робототехнике для интеграции обученных политик в стек управления роботом, обеспечивая стабильное и надежное поведение в реальных условиях.
Разработка будет включать непрерывную итерацию между крупномасштабным моделированием и аппаратными экспериментами.
Задачи, над которыми вы будете работать, включают динамическую локомоцию, восстановление равновесия, манипуляции с множеством контактов и обучение политик с несколькими поведениями.
Что вы будете делать
- Магистр или кандидат наук в области робототехники, машинного обучения, информатики или смежной области.
- Сильный опыт работы с обучением с подкреплением (например, PPO, SAC, офлайн RL).
- Опыт применения RL к робототехнике или физическим системам.
- Опыт развертывания обученных политик на реальных робототехнических системах.
- Опыт работы с физически основанными симуляционными средами (например, Isaac Lab, MuJoCo).
- Сильные навыки программирования на Python и/или C++.
Мы ищем:
- Проектировать и обучать политики обучения с подкреплением для управления гуманоидным роботом.
- Создавать масштабируемые конвейеры симуляции и обучения (например, Isaac Lab, MuJoCo).
- Проектировать функции вознаграждения, пространства наблюдений и учебные программы для сложных поведений.
- Улучшать надежность и переносимость из симуляции в реальность обученных политик.
- Развёртывать и оценивать политики на реальных робототехнических системах.
- Интегрировать политики в стек управления.
_Желательно иметь_
- Опыт работы с RL для локомоции или ногоподобных роботов.
- Опыт переноса из симуляции в реальность.
- Знания в области динамики роботов, управления или управления всем телом.
Что мы предлагаем
- Значимый отдых для восстановления сил: 23 дня ежегодного отпуска (накопительный), 15 дней оплачиваемого больничного и оплачиваемые корпоративные праздники.
- Полностью оплачиваемое частное медицинское обслуживание для сотрудников из Великобритании с широким доступом к провайдерам, виртуальной и очной помощью, а также сильной поддержкой психического здоровья и при серьезных заболеваниях.
- Включение в капитал — мы считаем, что создатели должны участвовать в том, что они создают.
- Пенсионная схема с общим взносом 8% (5% сотрудник, 3% работодатель) от полной заработной платы.
- Бесплатный ежедневный завтрак, обед с кейтерингом и закуски в офисе.
- Сотрудничество с ведущими инженерами, исследователями и экспертами по продукту в области ИИ и робототехники.
- Свобода влиять на продукт и вести ключевые инициативы.
Как подать заявку
Звучит ли эта роль как идеальное предложение для вас? Заполните форму и приложите ссылки или файлы, демонстрирующие лучшее из того, что вы создали и достигли.
Подать заявку сейчас
*обозначает обязательное поле