Инженер-исследователь / Ученый, Наука о согласовании

Сан-Франциско, Калифорния

О компании Anthropic

Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.

О роли:

Вы хотите создавать и проводить изящные и тщательные эксперименты в области машинного обучения, чтобы помочь нам понять и управлять поведением мощных систем ИИ. Вам важно, чтобы ИИ был полезным, честным и безвредным, и вас интересуют сложности, которые могут возникнуть в контексте возможностей на уровне человека. Вы можете описать себя как ученого и инженера одновременно. В качестве инженера-исследователя в области науки о согласовании вы будете вносить вклад в исследовательские экспериментальные работы по безопасности ИИ, с акцентом на риски от мощных будущих систем (таких, которые мы обозначаем как ASL-3 или ASL-4 согласно нашей Политике ответственного масштабирования), часто в сотрудничестве с другими командами, включая Интерпретируемость, Тонкую настройку и Команду по переднему краю.

Наш блог предоставляет обзор тем, которые команда науки о согласовании либо сейчас исследует, либо исследовала ранее. Наши текущие направления включают...

Масштабируемый надзор: Разработка методов, позволяющих сохранять полезность и честность высокоэффективных моделей, даже когда они превосходят человеческий уровень интеллекта в различных областях.
Контроль ИИ: Создание методов, гарантирующих, что продвинутые системы ИИ остаются безопасными и безвредными в незнакомых или враждебных сценариях.
Стресс-тестирование согласования: Создание модельных организмов несогласованности для улучшения нашего эмпирического понимания того, как могут возникать сбои в согласовании.
Автоматизированные исследования согласования: Создание и согласование системы, которая может ускорить и улучшить исследования в области согласования.
Оценка согласования: Понимание и документирование наиболее критичных и вызывающих беспокойство новых свойств моделей через оценку согласования и благополучия до развертывания (см. нашу Системную карту Claude 4), кейсы безопасности рисков несогласованности и координацию с внешними оценщиками.
Исследования мер защиты: Разработка надежных защит от атак, комплексных рамок оценки безопасности моделей и автоматизированных систем для обнаружения и смягчения потенциальных рисков до развертывания.
Благополучие моделей: Исследование и решение вопросов потенциального благополучия моделей, морального статуса и связанных с этим вопросов. Подробнее см. наше объявление программы и оценку благополучия в системной карте Claude 4.

Примечание: Для этой роли все интервью проводятся на Python, и мы предпочитаем кандидатов, базирующихся в районе залива.

Примеры проектов:

Тестирование устойчивости наших методов безопасности путем обучения языковых моделей обходить наши методы безопасности и оценка их эффективности в обходе наших вмешательств.
Проведение экспериментов с многопользовательским обучением с подкреплением для проверки таких методов, как Дебаты ИИ.
Создание инструментов для эффективной оценки эффективности новых способов обхода ограничений, сгенерированных большими языковыми моделями.
Написание скриптов и подсказок для эффективного создания вопросов для оценки способностей моделей к рассуждению в контекстах, связанных с безопасностью.
Внесение идей, создание иллюстраций и написание текстов для научных статей, блогов и докладов.
Проведение экспериментов, которые поддерживают ключевые усилия по безопасности ИИ в Anthropic, такие как разработка и внедрение нашей Политики ответственного масштабирования.

Вы можете подойти, если вы:

Имеете значительный опыт в программировании, машинном обучении или инженерии исследований
Имеете некоторый опыт участия в эмпирических проектах по исследованию ИИ
Знакомы с техническими исследованиями в области безопасности ИИ
Предпочитаете быстро движущиеся совместные проекты обширным индивидуальным усилиям
Готовы подхватить работу, даже если она выходит за рамки вашей должностной инструкции
Заботитесь о влиянии ИИ

Сильные кандидаты также могут:

Иметь опыт написания научных статей по машинному обучению, обработке естественного языка или безопасности ИИ
Иметь опыт работы с большими языковыми моделями
Иметь опыт работы с обучением с подкреплением
Иметь опыт работы с кластерами Kubernetes и сложными общими кодовыми базами

Кандидатам необязательно иметь:

100% навыков, необходимых для выполнения работы
Формальные сертификаты или дипломы

Годовой диапазон компенсации для этой роли указан ниже.

Для ролей в продажах указанный диапазон — это диапазон целевого дохода ("OTE"), что означает, что он включает как комиссионные/бонусы по продажам, так и годовую базовую зарплату.

Годовая зарплата:

350 000 - 500 000 долларов США

Логистика

Требования к образованию:

Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт. Политика гибридной работы в зависимости от местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако для некоторых ролей может потребоваться больше времени в офисе.

Спонсорство визы:

Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визу для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.

Присоединяйтесь к нам!

Anthropic — это корпорация общественной пользы с головным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований в акции, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами.

Исследователь