Research Engineer (Code RL) в Anthropic | Эйч — сервис развития карьеры

Инженер-исследователь, Code RL (обучение с подкреплением)

Сан-Франциско, Калифорния | Нью-Йорк, Нью-Йорк

О компании Anthropic

Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и для общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.

О командах RL

Наши команды по обучению с подкреплением играют ключевую роль в развитии наших систем ИИ. Мы внесли вклад во все модели Claude, значительно повлияв на автономность и возможности кодирования наших последних моделей Claude. Наша работа охватывает несколько ключевых направлений:

Разработка систем, позволяющих моделям эффективно использовать компьютеры
Продвижение генерации кода с помощью обучения с подкреплением
Пионерские фундаментальные исследования RL для больших языковых моделей
Создание масштабируемой инфраструктуры RL и методологий обучения
Улучшение возможностей рассуждения моделей

Мы тесно сотрудничаем с командами Anthropic по выравниванию и передовыми командами по безопасности, чтобы гарантировать, что наши системы одновременно способны и безопасны. Мы сотрудничаем с командой прикладного производственного обучения, чтобы внедрять инновации исследований в развернутые модели, и стремимся реализовывать наши исследования в масштабе. Наши команды по обучению с подкреплением находятся на пересечении передовых исследований и инженерного мастерства, с глубоким обязательством создавать высококачественные, масштабируемые системы, которые расширяют границы возможностей ИИ.

О роли

Мы нанимаем в команду Code RL в рамках организации RL. В качестве инженера-исследователя вы будете развивать способность наших моделей писать, редактировать, тестировать, отлаживать и выпускать реальное программное обеспечение — от начала до конца, на реальных кодовых базах, с реальными инструментами — и делать это правильно, быстро и безопасно.

Эта роль сочетает в себе исследовательскую и инженерную работу. Вы будете проектировать среды RL и задачи кодирования, создавать сигналы вознаграждения и проверяющие механизмы, которые отражают, что значит «хороший код», запускать обучающие эксперименты на передовых моделях, диагностировать, почему модель улучшается (или не улучшается) в определённом классе задач программной инженерии, а также улучшать скорость и надежность конвейеров, которые обеспечивают быструю итерацию всего этого. Code RL охватывает несколько областей — от агентных кодирующих поведений и корректности кода до долгосрочной автономной инженерии и высокопроизводительного кода для ускорителей — и мы подберём вам область, в которой вы сможете оказать наибольшее влияние.

Вы можете подойти, если вы:

Обладаете сильными навыками программной инженерии и глубокими знаниями Python, включая асинхронное/конкурентное программирование
Комфортно берёте на себя ответственность за системы от начала до конца и умеете отлаживать на всех уровнях стека
Можете балансировать между исследовательским поиском и инженерной реализацией, а также строго участвовать в формировании дизайна экспериментов и интерпретации результатов
Заботитесь о качестве кода, тестировании и производительности
Страстно относитесь к потенциальному влиянию ИИ и привержены разработке безопасных и полезных систем

Сильные кандидаты также могут иметь:

Опыт работы с обучением с подкреплением, RLHF, постобучением или дообучением больших языковых моделей
Создавали кодирующих агентов, песочницы для выполнения кода, системы оценки, проверяющие механизмы или инструменты для разработчиков
Опыт в анализе программ, тестировании, верификации, компиляторах или формальных методах
Опыт работы с PyTorch и масштабным распределённым обучением; профилирование производительности и оптимизация систем машинного обучения
Опыт работы с CUDA / GPU или TPU ядрами и интуиция по производительности ускорителей
Опыт работы с виртуализацией и изолированными средами выполнения кода

Связанные вакансии:

Инженер-исследователь, Performance RL (обучение с подкреплением) — обучение Claude написанию корректного и быстрого кода для ускорителей
Инженер-исследователь, Universes — долгосрочные, ультрареалистичные агентные тренировочные среды
Инженер-исследователь, Cybersecurity RL (обучение с подкреплением) — RL для возможностей кодирования, связанных с безопасностью

Годовой диапазон компенсации для этой роли указан ниже.

Для ролей в продажах указанный диапазон является диапазоном целевого дохода ("OTE"), что означает, что диапазон включает как целевые комиссионные/бонусы за продажи, так и годовую базовую зарплату по роли.

Годовая зарплата:

500 000 - 850 000 долларов США

Логистика

Минимальное образование:

Степень бакалавра или эквивалентное сочетание образования, обучения и/или опыта

Требуемая область обучения:

Область, релевантная роли, подтверждённая учебными курсами, обучением или профессиональным опытом

Минимальный опыт работы:

Требуемый опыт будет соответствовать внутренним требованиям уровня должности

Политика гибридной работы в зависимости от местоположения:

В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.

Спонсорство визы:

Мы спонсируем визы! Однако мы не можем гарантированно спонсировать визы для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.

Мы призываем вас подавать заявку, даже если вы не уверены, что соответствуете всем требованиям. Не все сильные кандидаты соответствуют каждому из перечисленных требований. Исследования показывают, что люди из недостаточно представленных групп чаще испытывают синдром самозванца и сомневаются в силе своей кандидатуры, поэтому мы настоятельно рекомендуем не исключать себя преждевременно и подавать заявку, если вас интересует эта работа. Мы считаем, что системы ИИ, подобные тем, что мы создаём, имеют огромные социальные и этические последствия. Это делает представительство ещё более важным, и мы стремимся включать разнообразные точки зрения в нашу команду.

Ваша безопасность важна для нас. Чтобы защитить себя от возможных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com. В некоторых случаях мы сотрудничаем с проверенными рекрутинговыми агентствами, которые представляются как работающие от имени Anthropic. Будьте осторожны с письмами с других доменов. Законные рекрутеры Anthropic никогда не будут просить деньги, сборы или банковскую информацию до вашего первого рабочего дня. Если вы сомневаетесь в каком-либо сообщении, не переходите по ссылкам — посетите anthropic.com/careers напрямую для подтверждения открытых вакансий.

Чем мы отличаемся

Мы считаем, что исследования ИИ с наибольшим воздействием будут крупномасштабными научными проектами. В Anthropic мы работаем как единая сплочённая команда над всего несколькими крупными исследовательскими инициативами. И мы ценим влияние — продвижение наших долгосрочных целей по созданию управляемого, заслуживающего доверия ИИ — а не работу над мелкими и более специфическими задачами. Мы рассматриваем исследования ИИ как эмпирическую науку, которая имеет столько общего с физикой и биологией, сколько и с традиционными усилиями в области компьютерных наук. Мы — чрезвычайно совместная группа и часто проводим исследовательские обсуждения, чтобы гарантировать, что в любой момент времени мы занимаемся наиболее значимой работой. Поэтому мы очень ценим навыки коммуникации.

Самый простой способ понять наши исследовательские направления — прочитать наши последние исследования. Эти исследования продолжают многие направления, над которыми работала наша команда до Anthropic, включая: GPT-3, интерпретируемость на основе цепей, мультимодальные нейроны, законы масштабирования, ИИ и вычисления, конкретные проблемы безопасности ИИ и обучение на основе человеческих предпочтений.

Присоединяйтесь к нам!

Anthropic — это корпорация общественной пользы с головным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований акциями, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами.

Руководство по использованию ИИ кандидатами: Узнайте о нашей политике использования ИИ в процессе подачи заявок.

Откликнуться

Research Engineer (Code RL)

Инженер-исследователь, Code RL (обучение с подкреплением)

О компании Anthropic

О командах RL

О роли

Вы можете подойти, если вы:

Сильные кандидаты также могут иметь:

Годовая зарплата:

Логистика

Минимальное образование:

Требуемая область обучения:

Минимальный опыт работы:

Политика гибридной работы в зависимости от местоположения:

Спонсорство визы:

Чем мы отличаемся

Присоединяйтесь к нам!

Наш телеграм канал с вакансиями каждый день

Оффер быстрее с Эйч

Оффер быстрее с Эйч

Похожие вакансии

Data Scientist (LLM)

Data Scientist (NLP, LLM)

Data Scientist (направление риски)

Специалист по науке о данных (data scientist)

Data Scientist

AI-специалист / Технический специалист по внедрению ИИ / AI-интегратор