ML Engineer (MusicSearch)
Команда Поиска ищет ML Engineer в MusicSearch. Мы создаём поисковый движок, который позволяет ассистенту на устройствах находить нужный трек, исполнителя, плейлист или подкаст.
Ты будешь работать с архитектурой поискового движка, индексом, ML-моделями ранжирования и персонализацией выдачи. Основной фокус роли — развитие ML-движка поиска и внедрение современных подходов в ранжировании и retrieval: гибридный retrieval, BERT/Transformer-модели, Learning to Rank, персонализация, OpenSearch/Elasticsearch, CatBoost, Airflow и PySpark.
Обязанности
- участвовать в улучшении качества поиска: от офлайн-метрик ранжирования до стабильности ранжирования в проде
- разрабатывать и внедрять модели ранжирования Learning to Rank для повышения релевантности поисковой выдачи
- обучать и улучшать LTR-модели на базе классического ML и градиентного бустинга: CatBoost, LightGBM или XGBoost
- работать с BERT/NLP-моделями для векторизации запросов, документов и объектов музыкального каталога
- развивать гибридный retrieval-пайплайн: lexical search на базе OpenSearch/Elasticsearch, dense retrieval на BERT/Transformer-эмбеддингах и ML-reranking на LTR-моделях
- участвовать в обновлении и перестроении индекса для улучшения качества и скорости поиска
- разрабатывать запросно-независимые и запросно-зависимые фичи для ранжирования персонализирующие фичи на основе действий пользователя, истории прослушиваний, кликов, пропусков, лайков и других сигналов
- развивать пайплайны оценки и переоценки качества поиска
- готовить обучающие датасеты для ранжирования на основе логов, кликов, прослушиваний, ручной разметки и implicit feedback
- участвовать в A/B-тестах поисковых изменений и анализе результатов
- развивать ML-пайплайны в Airflow
- работать с большими объёмами логов и фичей с использованием PySpark
- взаимодействовать с командой инфраструктуры при внедрении моделей ранжирования и новых фичей в production
Требования
- проктический опыт в задачах ранжирования / поиска / рекомендаций / NLP от 3 лет
- опыт работы с классическим ML и градиентным бустингом: CatBoost, LightGBM или XGBoost
- опыт feature engineering для задач ранжирования, поиска или рекомендаций
- опыт работы с BERT / Transformer-моделями для NLP-задач: эмбеддинги, семантический поиск, matching query-document или reranking
- понимание принципов lexical search, dense retrieval и ML-reranking
- понимание, какие метрики применять в разных классах поисковых задач
- опыт работы с Airflow или другими оркестраторами задач для ML/data-пайплайнов
- опыт работы с большими данными: PySpark, SQL или аналогичные инструменты
- уверенное владение Python, умение писать читаемый и поддерживаемый код
Условия
- гибридный формат работы (м Новослободская)
- ежегодный пересмотр зарплаты, годовой бонус
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративная пенсионная программа.