CV Engineer (GigaChat Pretrain)
29 июня 2026 • г Москва • ПАО Сбербанк • Информационные технологии:Программист, разработчик
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
Обязанности
- Поддержка данных для обучения VLM на кластере YTSaurus.
- Построение удобной платформы для эффективного анализа/обработки данных (фильтрация, дедупликация и пр.)
- Автоматизация процессов через Airflow.
- Поиск и синтез данных для обучения VLM.
- Исследование пайплайнов по созданию чистых и разнообразных датасетов.
- Обучение VLM на подготовленных данных.
- Проведение исследований релевантных intrain метрик, бенчмарков для замера качества.
Требования
- Опыт построения дата пайплайнов и data quality процессов.
- Опыт работы в production ml команде.
- Понимание задач CV и современных подходов в больших языковых моделях.
- Практический опыт решения задач с влиянием данных на качество VLM.
Условия
- Комфортный современный офис рядом с м. Кутузовская.
- Гибкий график: офис/гибрид/удаленка.
- Годовая премия.
- Корпоративный спортзал и зоны отдыха.
- Более 400 образовательных программ СберУниверситета.
- Расширенный ДМС и корпоративная пенсионная программа.
- Ипотека для сотрудников.
- Бесплатная подписка СберПрайм+.