Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.
Наши команды по обучению с подкреплением (Reinforcement Learning, RL) возглавляют исследования и разработки в области обучения с подкреплением в Anthropic, играя ключевую роль в развитии наших систем ИИ. Мы внесли вклад во все модели Claude, значительно повлияв на автономность и возможности кодирования в Claude Sonnet 4.6 и Opus 4.6. Наша работа охватывает несколько ключевых направлений:
Разработка систем, позволяющих моделям эффективно использовать компьютеры
Продвижение генерации кода с помощью обучения с подкреплением
Пионерские фундаментальные исследования RL для больших языковых моделей
Создание масштабируемой инфраструктуры RL и методологий обучения
Улучшение возможностей рассуждения моделей
Мы тесно сотрудничаем с командами по выравниванию и командами по проверке безопасности Anthropic, чтобы наши системы были одновременно мощными и безопасными. Мы сотрудничаем с командой прикладного производственного обучения, чтобы внедрять исследовательские инновации в развернутые модели, и стремимся реализовывать наши исследования в масштабе. Наши команды RL находятся на пересечении передовых исследований и инженерного мастерства, с глубоким обязательством создавать высококачественные, масштабируемые системы, которые расширяют границы возможностей ИИ.
Мы нанимаем в команду Code RL внутри организации RL. В роли исследовательского инженера вы будете развивать способность наших моделей безопасно писать правильный и быстрый код для ускорителей.
Вам необходимо хорошо разбираться в производительности ускорителей, чтобы превращать её в задачи и сигналы, на которых модели могут учиться. В частности, вы будете:
Изобретать, проектировать и реализовывать среды RL и методы оценки.
Проводить эксперименты и формировать нашу исследовательскую дорожную карту.
Внедрять свою работу в обучающие запуски.
Сотрудничать с другими исследователями, инженерами и специалистами по производительности как внутри Anthropic, так и за его пределами.
Обладаете экспертизой в области ускорителей (CUDA, ROCm, Triton, Pallas), программирования в ML-фреймворках (JAX или PyTorch).
Работали на всех уровнях стека — ядра, код модели, распределённые системы.
Знаете, как балансировать исследовательские эксперименты и инженерную реализацию.
Страстно относитесь к потенциалу ИИ и привержены разработке безопасных и полезных систем.
Опыт работы с обучением с подкреплением.
Опыт переноса ML-нагрузок между разными типами ускорителей.
Знакомство с методологиями обучения больших языковых моделей (LLM).
Годовой диапазон компенсации для этой роли указан ниже.
Для ролей в продажах указанный диапазон представляет собой диапазон целевого дохода ("OTE"), что означает, что диапазон включает как целевые комиссионные/бонусы за продажи, так и годовую базовую зарплату по роли.
Годовая зарплата:
$350,000 - $850,000 USD
Требования к образованию: Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт.
Политика гибридного режима работы в зависимости от местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.
Спонсорство визы: Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визы для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.
Мы призываем вас подавать заявку, даже если вы не уверены, что соответствуете всем требованиям. Не все сильные кандидаты соответствуют каждому из перечисленных требований. Исследования показывают, что люди из недостаточно представленных групп чаще испытывают синдром самозванца и сомневаются в силе своей кандидатуры, поэтому мы настоятельно рекомендуем не исключать себя преждевременно и подавать заявку, если вас интересует эта работа. Мы считаем, что системы ИИ, подобные тем, которые мы создаём, имеют огромные социальные и этические последствия. Это делает представительство ещё более важным, и мы стремимся включать разнообразные точки зрения в нашу команду.
Ваша безопасность для нас важна. Чтобы защитить себя от возможных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com. В некоторых случаях мы сотрудничаем с проверенными рекрутинговыми агентствами, которые представляются как работающие от имени Anthropic. Будьте осторожны с письмами с других доменов. Законные рекрутеры Anthropic никогда не будут просить деньги, сборы или банковскую информацию до вашего первого рабочего дня. Если вы сомневаетесь в каком-либо сообщении, не переходите по ссылкам — посетите anthropic.com/careers прямо для подтверждения открытых вакансий.
Мы считаем, что исследования ИИ с наибольшим воздействием — это крупная наука. В Anthropic мы работаем как единая сплочённая команда над всего несколькими масштабными исследовательскими проектами. И мы ценим влияние — продвижение наших долгосрочных целей по созданию управляемого, заслуживающего доверия ИИ — больше, чем работу над мелкими и более специфическими задачами. Мы рассматриваем исследования ИИ как эмпирическую науку, которая имеет столько общего с физикой и биологией, сколько и с традиционными усилиями в области компьютерных наук. Мы — чрезвычайно коллективная группа и часто проводим исследовательские обсуждения, чтобы убедиться, что в любой момент времени мы занимаемся работой с наибольшим воздействием. Поэтому мы очень ценим навыки коммуникации.
Самый простой способ понять наши исследовательские направления — прочитать наши последние исследования. Эти исследования продолжают многие направления, над которыми наша команда работала до Anthropic, включая: GPT-3, интерпретируемость на основе цепей, мультимодальные нейроны, законы масштабирования, ИИ и вычисления, конкретные проблемы безопасности ИИ и обучение на основе предпочтений человека.
Anthropic — это корпорация общественной пользы с головным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований в акции, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами. Руководство по использованию ИИ кандидатами: Узнайте о нашей политике использования ИИ в процессе подачи заявки.