NLP Engineer (Reinforcement Learning)
24 июня 2026 • г Москва • ПАО Сбербанк • Информационные технологии:Программист, разработчик
Привет! Это GigaChat Reasoning — команда, которая даёт модели суперсилу размышлять. Мы придумываем среды, тренируем через online RL, ускоряем обучение и доводим решения до продакшна.
Улучшение GigaChat Reasoning: полный цикл обучения от холодного старта до вывода модели продакшн. Добавление новых доменов, создание датасетов и функций оценки ответов.
Развитие агентских навыков и tool calling с помощью Online RL: создание сред для обучения LLM, обучение и тестирование моделей.
Улучшение продукта Deep Research
Обязанности
- улучшать качество работы GigaChat Reasoning на русском и английском языках
- ускорять пайплайн обучения: профилирование узких мест, эффективный сэмплинг
- тестировать новые Loss-функции и подходы к обучению
- помогать выводить в прод всё, что мы обучим
- постоянно держаться up-to-date со свежими статьями.
Требования
- опыт в online RL и хорошие теоретические знания
- уверенное владение Python, PyTorch
- знание базовых алгоритмов и математики
- знания в DL, опыт обучения простых и больших моделей
- опыт обучения моделей для продакшена
- понимание текущего состояния эволюции больших LLM'ов
- будет плюсом наличие публикаций.
Условия
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.