Data Scientist/LLM-инженер в Эйчартех
Эйчартех Яндекса создаёт и поддерживает экосистему внутренних сервисов для ежедневной работы десятков тысяч сотрудников. Мы строим не только классические ML-решения, но и AI-продукты, которые меняют внутренние процессы компании: автоматизируем поддержку сотрудников, суммаризируем встречи, помогаем оценивать кандидатов на интервью, разрабатываем AI-ассистента. Каждый из этих продуктов работает на основе LLM — и каждый должен приносить измеримую пользу бизнесу.
Ищем специалиста, который умеет думать не только о технологиях, но и о бизнес-результатах: находить, где AI реально сэкономит время и деньги, измерять эффект и итеративно улучшать продукт.
Какие задачи вас ждут
- Оценка качества LLM-продуктов Вам предстоит создавать метрики качества для каждого продукта с учётом их специфики, выстраивать и поддерживать Evaluation Harness, внедрять LLM-as-a-judge: проектировать судей под конкретные задачи, заниматься их калибровкой и контролем смещений. Также нужно будет собирать ground truth датасета и контролировать его качество.
- Промпт-инжиниринг и эксперименты Вы будете участвовать в разработке и итерации промптов для продуктовых задач: генерации, классификации, извлечения информации, суммаризации. Предстоит формировать гипотезы о причинах деградаций и проверять их через эксперименты.
- Аналитика и влияние на результат Нужно будет находить места, где больше всего ручной работы и где AI принесёт максимальную пользу. В ваши задачи войдёт диагностика просадок метрик: поиск причин и локализация проблем. Вы будете внедрять лучшие практики в Evaluation Harness. Важно глубоко понимать бизнес-метрики и эффект от внедрения LLM.
Мы ждём, что вы:
- Имеете более трёх лет коммерческого опыта работы с ML-решениями, не менее года — с LLM/RAG
- Работали с OpenAI API, Hugging Face или их аналогами
- Пишете код на Python
- Умеете работать с данными и строить аналитику
- Способны измерять и улучшать качество LLM-продуктов
Будет плюсом, если вы:
- Работали с evaluation-фреймворками: LM Evaluation Harness, OpenAI Evals, HELM или аналогами
- Делали тонкую настройку сложных RAG-пайплайнов
- Участвовали в разработке диалоговых сервисов или AI-агентов
Бенефиты работы в Яндексе
- Здоровье: Расширенная медицинская страховка начинается с первого месяца в Яндексе. В неё входят: плановая помощь и неотложная за рубежом, страхование от несчастных случаев для любителей активного отдыха и лечение критических заболеваний.
- Рост и развитие: Мы за превентивную заботу о здоровье, поэтому по ДМС можно проходить чекапы и регулярно вакцинироваться.
- Стоматология: Плановые процедуры, профессиональная чистка и экстренная помощь за рубежом.
Больше о бенефитах
.