Senior Research Engineer (LLM Pretraining)

Мы занимаемся pretrain'ом больших языковых моделей в GigaChat: проектируем архитектуру, подбираем рецепт обучения и поддерживаем весь инженерный контур вокруг него.

Недавно мы обучили MoE-модель на 700 миллиардов параметров — и на этом не собираемся останавливаться. Обучение идёт на кластерах H100 и B200. GigaChat — самый быстрорастущий проект Сбера, и pretrain — его ядро.

Чем занимается команда

Архитектура и законы масштабирования.
Рецепт обучения: оптимизаторы, расписание learning rate, нормализация, точность вычислений.
Устойчивость больших прогонов и ускорение сходимости.
Диагностика обучения и оценка изменений с опорой на математический аппарат.
Инженерный контур: воспроизводимость, тесты, CI/CD.

Роль с акцентом на модель, оптимизацию и инфраструктуру обучения, а не на данные. Главная цель — делать обучение быстрее, надёжнее и предсказуемее.

Почему мы

Масштаб. 700B MoE уже обучена, дальше — больше. Кластеры на H100 и B200.
Публикации. Можно и нужно писать статьи по результатам своей работы — это не ограничивается.
Команда. В России нет другой команды, которая занимается pretrain'ом на таком масштабе. Коллеги — люди, которые глубоко разбираются в теме.
Влияние. Вы берёте направление целиком. Это не «выполнять задачи из бэклога», а самостоятельно определять, что важно, и доводить до результата.

Обязанности

Взять на себя целое направление внутри pretrain'а и развивать его: от постановки задач и планирования экспериментов до внедрения результатов в основное обучение.
Проектировать и проводить эксперименты: формулировать гипотезы, запускать абляции, сравнивать подходы, разбираться в результатах и превращать выводы в решения для основного обучения.
Работать с архитектурой смеси экспертов (MoE): маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации, влияние на качество и производительность.

Research Engineer (LLM Pretraining)

Senior Research Engineer (LLM Pretraining)

Чем занимается команда

Почему мы

Обязанности

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

AI Agent Engineer

Разработчик AI-прототипов

NLP инженер

Разработчик ИИ-агентов / AI Creator

AI Engineer

AI Lead

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

AI Agent Engineer

Разработчик AI-прототипов

NLP инженер

Разработчик ИИ-агентов / AI Creator

AI Engineer

AI Lead