Инженер-исследователь / Ученый, Наука о согласовании
Сан-Франциско, Калифорния
О компании Anthropic
Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.
О роли:
Вы хотите создавать и проводить изящные и тщательные эксперименты в области машинного обучения, чтобы помочь нам понять и управлять поведением мощных систем ИИ. Вам важно, чтобы ИИ был полезным, честным и безвредным, и вас интересуют сложности, которые могут возникнуть в контексте возможностей на уровне человека. Вы можете описать себя как ученого и инженера одновременно. В качестве инженера-исследователя в области науки о согласовании вы будете вносить вклад в исследовательские экспериментальные работы по безопасности ИИ, с акцентом на риски от мощных будущих систем (таких, которые мы обозначаем как ASL-3 или ASL-4 согласно нашей Политике ответственного масштабирования), часто в сотрудничестве с другими командами, включая Интерпретируемость, Тонкую настройку и Команду по переднему краю.
Наш блог предоставляет обзор тем, которые команда науки о согласовании либо сейчас исследует, либо исследовала ранее. Наши текущие направления включают...
- Масштабируемый надзор: Разработка методов, позволяющих сохранять полезность и честность высокоэффективных моделей, даже когда они превосходят человеческий уровень интеллекта в различных областях.
- Контроль ИИ: Создание методов, гарантирующих, что продвинутые системы ИИ остаются безопасными и безвредными в незнакомых или враждебных сценариях.
- Стресс-тестирование согласования: Создание модельных организмов несогласованности для улучшения нашего эмпирического понимания того, как могут возникать сбои в согласовании.
- Автоматизированные исследования согласования: Создание и согласование системы, которая может ускорить и улучшить исследования в области согласования.
- Оценка согласования: Понимание и документирование наиболее критичных и вызывающих беспокойство новых свойств моделей через оценку согласования и благополучия до развертывания (см. нашу Системную карту Claude 4), кейсы безопасности рисков несогласованности и координацию с внешними оценщиками.
- Исследования мер защиты: Разработка надежных защит от атак, комплексных рамок оценки безопасности моделей и автоматизированных систем для обнаружения и смягчения потенциальных рисков до развертывания.
- Благополучие моделей: Исследование и решение вопросов потенциального благополучия моделей, морального статуса и связанных с этим вопросов. Подробнее см. наше объявление программы и оценку благополучия в системной карте Claude 4.
Примечание: Для этой роли все интервью проводятся на Python, и мы предпочитаем кандидатов, базирующихся в районе залива.
Примеры проектов:
- Тестирование устойчивости наших методов безопасности путем обучения языковых моделей обходить наши методы безопасности и оценка их эффективности в обходе наших вмешательств.
- Проведение экспериментов с многопользовательским обучением с подкреплением для проверки таких методов, как Дебаты ИИ.
- Создание инструментов для эффективной оценки эффективности новых способов обхода ограничений, сгенерированных большими языковыми моделями.
- Написание скриптов и подсказок для эффективного создания вопросов для оценки способностей моделей к рассуждению в контекстах, связанных с безопасностью.
- Внесение идей, создание иллюстраций и написание текстов для научных статей, блогов и докладов.
- Проведение экспериментов, которые поддерживают ключевые усилия по безопасности ИИ в Anthropic, такие как разработка и внедрение нашей Политики ответственного масштабирования.
Вы можете подойти, если вы:
- Имеете значительный опыт в программировании, машинном обучении или инженерии исследований
- Имеете некоторый опыт участия в эмпирических проектах по исследованию ИИ
- Знакомы с техническими исследованиями в области безопасности ИИ
- Предпочитаете быстро движущиеся совместные проекты обширным индивидуальным усилиям
- Готовы подхватить работу, даже если она выходит за рамки вашей должностной инструкции
- Заботитесь о влиянии ИИ
Сильные кандидаты также могут:
- Иметь опыт написания научных статей по машинному обучению, обработке естественного языка или безопасности ИИ
- Иметь опыт работы с большими языковыми моделями
- Иметь опыт работы с обучением с подкреплением
- Иметь опыт работы с кластерами Kubernetes и сложными общими кодовыми базами
Кандидатам необязательно иметь:
- 100% навыков, необходимых для выполнения работы
- Формальные сертификаты или дипломы
Годовой диапазон компенсации для этой роли указан ниже.
Для ролей в продажах указанный диапазон — это диапазон целевого дохода ("OTE"), что означает, что он включает как комиссионные/бонусы по продажам, так и годовую базовую зарплату.
Годовая зарплата:
350 000 - 500 000 долларов США
Логистика
Требования к образованию:
Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт. Политика гибридной работы в зависимости от местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако для некоторых ролей может потребоваться больше времени в офисе.
Спонсорство визы:
Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визу для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.
Присоединяйтесь к нам!
Anthropic — это корпорация общественной пользы с головным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований в акции, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами.