\n
Технологии/инструменты
\n
Python
\n
PyTorch
\n
Мы развиваем GigaChat и ищем сильного руководителя направления online RL в домене STEM (математика, естественные науки, инженерные и технические дисциплины). Это роль для человека, который умеет одновременно развивать методы обучения моделей, глубоко разбираться в предметной области и выстраивать процессы сбора и подготовки данных.
\n
Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального роста качества модели.
\n
Чем предстоит заниматься
\n
Развивать направление online RL для STEM-задач
\n
\n- Определять, как должно развиваться направление online RL в STEM-домене: какие задачи для нас наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
\n- Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения модели.
\n- Принимать решения о приоритетах между развитием методов, сбором данных, инфраструктурой и системой оценки качества.
\n
\n
Разрабатывать и улучшать методы обучения
\n
\n- Развивать подходы post-training и online RL для задач по математике, физике, химии, биологии и другим STEM-дисциплинам.
\n- Продумывать и внедрять способы оценки качества, которые помогают модели лучше решать реальные задачи: строить цепочки рассуждений, находить верные ответы, корректно применять формулы и методы, работать с многошаговыми задачами.
\n- Определять, в каких случаях online RL действительно даёт прирост качества по сравнению с supervised fine-tuning и другими подходами, а в каких — нет.
\n- Проводить эксперименты и разбирать результаты не только на уровне метрик, но и на уровне причин: почему модель стала лучше или хуже, насколько устойчив результат и можно ли его перенести на другие типы задач.
\n
\n
Писать ключевой код и развивать инфраструктуру
\n
\n- Самостоятельно писать и дорабатывать критичные части пайплайнов online RL.
\n- Делать надёжные и воспроизводимые эксперименты: с понятными версиями данных, конфигами, сравнением запусков и контролем деградаций.
\n- Выстраивать связку между моделью, верификаторами, reward-сигналами и обучающими пайплайнами так, чтобы новые идеи можно было быстро проверять и быстро доводить до практического результата.
\n- Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и качестве данных.
\n
\n
Строить контур данных для обучения
\n
\n- Организовывать сбор и подготовку данных для online RL в STEM-домене: задачи разной сложности, эталонные решения, формальные и автоматические верификаторы, синтетические и реальные сценарии.
\n- Формировать качественные обучающие выборки с хорошим покрытием по дисциплинам, уровням сложности (от школьных до олимпиадных и университетских задач), типам рассуждений и типовым ошибкам модели.
\n- Встраивать в пайплайны проверки качества: символьную и численную верификацию ответов, проверку промежуточных шагов рассуждений, контроль утечек, удаление дублей, балансировку по сложности и предметным областям.
\n- Делать так, чтобы каждый цикл обучения улучшал не только модель, но и сам процесс: появлялись новые данные, новые сложные примеры, более точные критерии качества и лучшее понимание слабых мест модели.
\n
\n
Руководить сильной технической командой
\n
\n- Руководить командой исследователей и инженеров, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
\n- Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл обучения.
\n- Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.
\n
\n
Для нас важно
\n
\n- Отличное владение Python и PyTorch.
\n- Практический опыт в LLM post-training: RLHF, online RL или смежных направлениях.
\n- Понимание специфики STEM-домена: формальная верификация ответов, chain-of-thought reasoning, работа с математической нотацией, многошаговые решения, типовые ошибки моделей в рассуждениях.
\n- Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
\n- Опыт руководства сильной технической командой.
\n- Готовность лично писать важные части системы руками.
\n
\n
Будет плюсом
\n
\n- Сильный математический или естественнонаучный бэкграунд (профильное образование, олимпиадный опыт, публикации).
\n- Опыт построения верификаторов и reward-моделей для задач STEM.
\n- Опыт построения пайплайнов данных, а не только работы с уже готовыми датасетами.
\n- Опыт работы с distributed training или large-scale inference.
\n- Опыт разработки систем оценки качества для LLM (бенчмарки, LLM-as-a-judge, process reward models).
\n- Опыт работы с synthetic data generation, curriculum learning, active data collection.
\n- Понимание современных open-source стеков для обучения и инференса больших языковых моделей.
\n- Публикации, open-source вклад или сильный прикладной research track record.
\n
\n
Что предлагаем
\n
\n- Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
\n- Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
\n- Команду сильных инженеров и исследователей.
\n- Возможность совмещать управление направлением с глубокой технической работой.
\n- Конкурентную компенсацию — оклад+премии, расширенный соцпакет.
\n
\n