[Выражение заинтересованности] Инженер-исследователь, Оценка моделей

Сан-Франциско, Калифорния | Нью-Йорк, Нью-Йорк

О компании Anthropic

Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.

Примечание: В настоящее время мы не ведем активный набор в эту команду, но оставляем эту вакансию открытой для сбора выражений заинтересованности. Как только мы возобновим набор, мы можем связаться с вами, если увидим взаимное соответствие.

О роли

В качестве инженера-исследователя в команде оценки моделей вы будете руководить разработкой и внедрением платформы оценки Anthropic — критически важной системы, которая формирует наше понимание, измерение и улучшение возможностей и безопасности наших моделей. Вы будете работать на стыке исследований и инженерии, разрабатывая и внедряя оценки моделей, которые дают нам представление о новых возможностях, а также создавая надежную инфраструктуру оценки, которая напрямую влияет на решения по обучению и дорожную карту развития моделей.

Ваша работа будет иметь решающее значение для миссии Anthropic по созданию безопасных и полезных систем ИИ. Вы будете тесно сотрудничать с командами обучения, исследователями по согласованию и командами безопасности, чтобы гарантировать, что наши модели соответствуют самым высоким стандартам перед развертыванием. Это роль технического лидера, в которой вы будете определять как стратегическое видение, так и практическую реализацию наших систем оценки.

Обязанности

Разрабатывать новые методологии оценки для проверки возможностей моделей в различных областях, включая рассуждение, безопасность, полезность и безвредность
Руководить проектированием и архитектурой платформы оценки Anthropic, обеспечивая ее масштабируемость в соответствии с быстро развивающимися возможностями моделей и исследовательскими потребностями
Внедрять и поддерживать высокопроизводительные конвейеры оценки, работающие во время производственного обучения, предоставляя оперативные данные для принятия решений по обучению
Анализировать результаты оценки для выявления закономерностей, режимов сбоев и возможностей для улучшения моделей, переводя сложные выводы в практические рекомендации
Сотрудничать с исследовательскими командами для разработки специализированных оценок, направленных на выявление новых возможностей и потенциальных рисков
Создавать инфраструктуру для быстрой итерации в дизайне оценок, поддерживая как автоматизированные, так и с участием человека методы оценки
Устанавливать лучшие практики и стандарты разработки оценок по всей организации
Наставлять членов команды и способствовать развитию экспертизы в области оценки в Anthropic
Координировать оценочные мероприятия во время критических этапов обучения, обеспечивая всестороннее покрытие и своевременные результаты
Вносить вклад в научные публикации и внешние коммуникации по методологиям и результатам оценки

Вы можете подойти на эту роль, если вы

Имеете опыт проектирования и внедрения систем оценки для моделей машинного обучения, особенно больших языковых моделей
Обладаете подтвержденным опытом технического лидерства, формального или через руководство сложными техническими проектами
Умеете сочетать системную инженерию и экспериментальный дизайн, комфортно создавая инфраструктуру при сохранении научной строгости
Обладаете сильными навыками программирования на Python и опытом работы с распределёнными вычислительными фреймворками
Можете переводить исследовательские потребности в инженерные ограничения, находя прагматичные решения сложных задач
Ориентированы на результат и успешно работаете в быстро меняющейся среде, где приоритеты могут меняться в зависимости от результатов исследований
Любите работать в команде и умеете эффективно объяснять технические концепции разнообразным заинтересованным сторонам
Глубоко заботитесь о безопасности ИИ и общественных последствиях создаваемых систем
Имеете опыт статистического анализа и умеете делать значимые выводы из масштабных экспериментальных данных

Сильные кандидаты также могут иметь

Опыт оценки во время обучения моделей, особенно в производственных условиях
Знание рамок оценки безопасности и методологий red teaming
Опыт в психометрии, экспериментальной психологии или других областях, связанных с измерением и оценкой
Опыт оценки с подкреплением или в мультиагентных системах
Вклад в открытые стандарты оценки или фреймворки
Знание инженерии подсказок и её роли в дизайне оценки
Опыт управления инфраструктурой оценки в масштабе (тысячи экспериментов)
Публикации в области оценки машинного обучения, бенчмаркинга или смежных областях

Примеры проектов

Разработка комплексных наборов оценок, которые проверяют модели по сотням измерений возможностей
Создание панелей оценки в реальном времени, которые предоставляют критические данные во время многонедельных этапов обучения
Разработка новых подходов к оценке для новых возможностей, таких как многошаговое рассуждение или использование инструментов
Создание автоматизированных систем для обнаружения регрессий в производительности моделей или свойствах безопасности
Внедрение эффективных стратегий выборки для оценки, балансирующих покрытие и вычислительные ограничения
Сотрудничество с внешними партнерами для разработки отраслевых стандартов оценки
Создание инфраструктуры для масштабной оценки с участием человека, включая системы контроля качества и агрегации

Годовой диапазон компенсации для этой роли указан ниже.

Для ролей в продажах указанный диапазон — это диапазон целевого дохода ("OTE"), что означает, что он включает как комиссионные/бонусы по продажам, так и годовую базовую зарплату по роли.

Годовая зарплата:

300 000 - 405 000 долларов США

Логистика

Требования к образованию: Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт.

Политика гибридной работы в зависимости от местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.

Спонсорство визы: Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визу для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.

Мы призываем вас подавать заявку, даже если вы не уверены, что соответствуете всем требованиям.

Ваша безопасность для нас важна. Чтобы защитить себя от возможных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com. В некоторых случаях мы можем сотрудничать с проверенными рекрутинговыми агентствами, которые будут представляться как работающие от имени Anthropic. Будьте осторожны с письмами с других доменов.

Присоединяйтесь к нам!

Anthropic — это корпорация общественной пользы с головным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований в акции, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами.

Инженер-исследователь

[Выражение заинтересованности] Инженер-исследователь, Оценка моделей

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Руководитель проектов (Senior DS)

Senior AI Engineer / Senior Data Scientist (LLM & Prompt Engineering)/Дата-сайентист

Data Scientist (Causal AI)

ML аналитик (трейдинг)

Data Scientist

Data Scientist

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Руководитель проектов (Senior DS)

Senior AI Engineer / Senior Data Scientist (LLM & Prompt Engineering)/Дата-сайентист

Data Scientist (Causal AI)

ML аналитик (трейдинг)

Data Scientist

Data Scientist