Senior Research Engineer (LLM Pretraining)
Мы занимаемся pretrain'ом больших языковых моделей в GigaChat: проектируем архитектуру, подбираем рецепт обучения и поддерживаем весь инженерный контур вокруг него.
Недавно мы обучили MoE-модель на 700 миллиардов параметров — и на этом не собираемся останавливаться. Обучение идёт на кластерах H100 и B200. GigaChat — самый быстрорастущий проект Сбера, и pretrain — его ядро.
Чем занимается команда
- Архитектура и законы масштабирования.
- Рецепт обучения: оптимизаторы, расписание learning rate, нормализация, точность вычислений.
- Устойчивость больших прогонов и ускорение сходимости.
- Диагностика обучения и оценка изменений с опорой на математический аппарат.
- Инженерный контур: воспроизводимость, тесты, CI/CD.
Роль с акцентом на модель, оптимизацию и инфраструктуру обучения, а не на данные. Главная цель — делать обучение быстрее, надёжнее и предсказуемее.
Почему мы
- Масштаб. 700B MoE уже обучена, дальше — больше. Кластеры на H100 и B200.
- Публикации. Можно и нужно писать статьи по результатам своей работы — это не ограничивается.
- Команда. В России нет другой команды, которая занимается pretrain'ом на таком масштабе. Коллеги — люди, которые глубоко разбираются в теме.
- Влияние. Вы берёте направление целиком. Это не «выполнять задачи из бэклога», а самостоятельно определять, что важно, и доводить до результата.
Обязанности
- Взять на себя целое направление внутри pretrain'а и развивать его: от постановки задач и планирования экспериментов до внедрения результатов в основное обучение.
- Проектировать и проводить эксперименты: формулировать гипотезы, запускать абляции, сравнивать подходы, разбираться в результатах и превращать выводы в решения для основного обучения.
- Работать с архитектурой смеси экспертов (MoE): маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации, влияние на качество и производительность.