Развивать инфраструктуру и пайплайны замеров (Evaluation Harness).
Реализовывать и поддерживать бенчмарки: парсинг датасетов, промпт-шаблоны, постпроцессинг ответов, подсчёт метрик.
Обеспечивать железобетонную воспроизводимость: версионирование конфигов, CI-интеграция. Любой замер должен выдавать идентичный результат и сегодня, и через полгода.
Разбирать статьи и репозитории новых бенчмарков, понимать их методологию и встраивать в наш пайплайн с автоматическим запуском.
Строить и масштабировать LLM-as-a-Judge.
Развивать пайплайны моделей-судей: глубокий промпт-инжиниринг, калибровка, контроль смещений (bias), оценка консистентности и сравнение судей между собой.
Проектировать, настраивать и автоматизировать arena-style оценки.
Создавать целевые датасеты и анализировать данные.
Проектировать новые арены и тестовые наборы под конкретные слабые места модели и проверяемые гипотезы.
Вытаскивать сигналы о деградациях из пользовательских логов, собирать промпты, следить за актуальностью и контаминацией существующих датасетов.
Проводить аналитику и быстро писать скрипты для ответа на вопрос: «почему просела метрика и что именно сломалось».
Проводить research и влиять на релизы.
Самостоятельно отслеживать state-of-the-art в области evaluation, инициировать внедрение лучших подходов — не дожидаясь постановки задачи сверху.
Готовить аналитические отчёты по замерам, формулировать жёсткие go/no-go рекомендации и аргументированно отстаивать их перед командой pretrain/post-train.
Для нас важно
Уверенный Python и инженерная культура: код ревьюится, тестируется и не гниёт. Уверенное владение Git, CI/CD, Bash на уровне самостоятельной поддержки сервисов.
Глубокое понимание устройства LLM: не на уровне обзоров, а на практике.
Насмотренность и инициативность: вы умеете не просто следить за потоком статей, но в нужный момент вытащить из памяти релевантный подход.
Базовая статистическая грамотность: доверительные интервалы, bootstrap, чёткое понимание того, когда разница в метрике статистически значима.