Мы — core-команда, которая отвечает за ML для понимания аудио во всем Сбере.
За последний год мы выложили в open source SOTA-модель для распознавания речи на русском языке — GigaAM, а прошлой весной первыми в России запустили нативное понимание звука в LLM — GigaChat Audio.
Сейчас мы активно улучшаем мультимодальные возможности GigaChat: работаем над качеством на сложных аудио- и визуальных контекстах и учим модель понимать видео не только по звуковому потоку, но и по кадрам.
Цель — совместное обучение на vision+audio и video+audio диалогах длительностью 90+ минут.
Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!
Что мы ожидаем:
Будет плюсом:
— Опыт обучения мультимодальных LLM
— Опыт снижения стоимости контекста при обработке видео
— Опыт расширения контекста LLM
— Понимание RL-подходов для обучения моделей: RLHF / RLVR, PPO / GRPO / DPO
— Опыт построения бенчмарков с использованием LLM-as-a-judge.