Full-Stack разработчик (Reinforcement Learning) в Anthropic | Эйч — сервис развития карьеры

О компании Anthropic

Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.

О роли

В качестве Full-Stack инженера-программиста в области обучения с подкреплением (RL) вы будете создавать платформы, инструменты и интерфейсы, которые обеспечивают создание окружений, сбор данных и наблюдаемость обучения. Качество следующего поколения Claude зависит от качества данных, на которых мы его обучаем — и системы, которые вы создадите, делают эти данные возможными.

Вы будете полностью отвечать за продуктовые поверхности — от бэкенд-сервисов и API до веб-интерфейсов, которыми ежедневно пользуются исследователи, внешние подрядчики и тысячи специалистов по разметке данных. Вам не обязательно иметь опыт в исследовании машинного обучения. Главное — уметь взять неоднозначную, высокорисковую задачу и быстро выпустить отточенный, надежный продукт.

Эта команда работает очень быстро. Claude пишет большую часть кода, который мы коммитим, что означает, что узким местом является не набор текста, а суждение, вкус и способность реагировать на то, что исследователям нужно дальше. Вы будете итеративно совершенствовать стратегии сбора данных, чтобы конденсировать знания тысяч человеческих экспертов по всему миру в наши модели, и делать это в цикле, который закрывается за часы и дни, а не за кварталы или месяцы.

Организация Reinforcement Learning в Anthropic ведет исследования и разработки, которые обучают Claude быть способным, надежным и безопасным. Мы внесли вклад в каждую модель Claude, существенно повлияв на автономность и возможности кодирования наших самых продвинутых моделей. Наша работа охватывает обучение моделей эффективному использованию компьютеров, развитие генерации кода через RL, пионерские фундаментальные исследования RL для больших языковых моделей и создание масштабируемых методологий обучения для наших передовых производственных моделей.

Организация RL структурирована вокруг четырех целей: решение научных задач долгосрочных задач и непрерывного обучения, масштабирование данных RL и окружений для обеспечения полноты и разнообразия, автоматизация программной инженерии от начала до конца и обучение передовой производственной модели. Наши инженерные команды создают окружения, системы оценки, конвейеры данных и инструменты, которые делают все это возможным — от реалистичных агентных тренировочных окружений и масштабируемой генерации кода до платформ сбора данных от людей и операций производственного обучения.

Что вы будете делать

Создавать и расширять веб-платформы для создания, управления и проверки качества окружений RL — включая конфигурацию окружений, версионирование и рабочие процессы валидации
Разрабатывать интерфейсы и инструменты для внешних подрядчиков, позволяющие партнерам создавать, отправлять и итеративно улучшать тренировочные окружения с минимальными трудностями
Проектировать и внедрять платформы для масштабного сбора данных от людей, включая рабочие процессы разметки, системы обеспечения качества и механизмы обратной связи, которые позволяют выявлять проблемы с целостностью сигналов вознаграждения на ранних этапах
Создавать панели оценки и интерфейсы наблюдаемости, которые дают исследователям информацию в реальном времени о качестве окружений, состоянии тренировочных запусков и попытках обхода вознаграждения
Разрабатывать бэкенд-сервисы и API, которые связывают инструменты создания окружений, системы сбора данных и инфраструктуру обучения RL
Создавать и расширять масштабируемые конвейеры генерации данных кода, производя разнообразные программные задачи с надежными сигналами вознаграждения на разных языках и уровнях сложности
Разрабатывать автоматизацию адаптации и инструменты документации, чтобы новые подрядчики и внутренние пользователи могли начать работу за часы, а не недели
Тесно сотрудничать с исследователями RL, операционными командами и менеджерами подрядчиков для преобразования неоднозначных требований в четко определенные и хорошо спроектированные продукты

Вы можете подойти, если

Имеете прочные основы программной инженерии и настоящий full-stack опыт — вам комфортно владеть поверхностью от схемы базы данных до фронтенда
Владеете Python и современным веб-стеком (React, TypeScript или аналогичным)
Имеете опыт выпуска систем, которые решали сложную проблему, а не просто сдавались вовремя — например, вы создали инструмент, который сделал вашу команду в 10 раз быстрее, или внутренний инструмент, который никто не считал возможным
Действуете с высокой инициативой: вы определяете, что нужно сделать, и продвигаете это без ожидания задачи
В прошлом задавались вопросом «почему это не движется быстрее?» — и затем что-то с этим сделали
Заботитесь о пользовательском опыте и умеете создавать интерфейсы, интуитивно понятные как техническим исследователям, так и нетехническим разметчикам
Четко общаетесь с исследователями, операционными командами и инженерами, умеете превращать расплывчатые запросы в четко определенную работу
Процветаете в быстро меняющейся среде, где приоритеты меняются, Claude — ваш напарник-программист, а следующая задача часто — та, которую никто раньше не решал
Заботитесь о миссии Anthropic по созданию безопасного и полезного ИИ и хотите, чтобы ваша работа напрямую этому способствовала

Сильные кандидаты также могут иметь

Опыт создания платформ для сбора, разметки или аннотирования данных — желательно таких, которые масштабировались на многих подрядчиков или типах задач
Опыт создания мультиарендных платформ с ролевым доступом, аудит-трейлами и рабочими процессами управления подрядчиками
Опыт работы с облачной инфраструктурой (GCP или AWS), Docker и CI/CD конвейерами
Знакомство с процессами обучения, дообучения или оценки больших языковых моделей (LLM)
Опыт работы с асинхронным Python (Trio, asyncio) или проектированием высокопроизводительных API
Опыт создания панелей мониторинга, систем наблюдаемости или инструментов мониторинга
Опыт прямой работы с внешними подрядчиками или партнерами по технической интеграции
Нестандартный карьерный путь — например, математика или физика, ставшая программной инженерией, соревновательное программирование, исследования, ставшие инженерией, или побочный проект, который вышел за рамки изначального замысла

Примеры проектов

Создание единой платформы для сбора данных от людей, которая интегрирует рабочие процессы разметки, управление подрядчиками и обеспечение качества для сложных агентных задач
Разработка автоматизации адаптации подрядчиков, которая управляет доступом к Docker-реестру, управлением API-токенами и валидацией окружений
Создание панелей оценки и наблюдаемости, которые выявляют попытки обхода вознаграждения, измеряют сложность окружений и дают обратную связь в реальном времени во время производственного обучения
Создание рабочих процессов проверки качества окружений, которые позволяют исследователям просматривать, оценивать и давать обратную связь по тренировочным окружениям
Разработка автоматизированных конвейеров проверки качества окружений, которые валидируют корректность и калибровку сложности перед тем, как окружения попадут в производственное обучение
Создание внутренних инструментов для просмотра и анализа результатов тренировочных запусков, статистики окружений и прогресса сбора данных

Ниже приведен годовой диапазон компенсации для этой роли.

Для ролей в продажах указанный диапазон — это диапазон целевого дохода ("OTE"), что означает, что он включает как комиссионные/бонусы за продажи, так и годовую базовую зарплату по роли.

Годовая зарплата:

300 000 $ - 405 000 $ USD

Логистика

Минимальное образование: Степень бакалавра или эквивалентное сочетание образования, обучения и/или опыта

Требуемая область обучения: Область, релевантная роли, подтвержденная курсами, обучением или профессиональным опытом

Минимальный опыт работы: Требуемый опыт будет соответствовать внутренним требованиям уровня должности

Политика гибридной работы по местоположению: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.

Спонсорство визы: Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визу для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.

Мы призываем вас подавать заявку, даже если вы не уверены, что соответствуете всем требованиям. Не все сильные кандидаты соответствуют каждому из перечисленных требований. Исследования показывают, что люди из недостаточно представленных групп чаще испытывают синдром самозванца и сомневаются в силе своей кандидатуры, поэтому мы настоятельно рекомендуем не исключать себя преждевременно и подавать заявку, если вас интересует эта работа. Мы считаем, что системы ИИ, подобные тем, которые мы создаем, имеют огромные социальные и этические последствия. Это делает представительство еще более важным, и мы стремимся включать разнообразные точки зрения в нашу команду.

Ваша безопасность важна для нас. Чтобы защитить себя от возможных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com. В некоторых случаях мы сотрудничаем с проверенными рекрутинговыми агентствами, которые представляются как работающие от имени Anthropic. Будьте осторожны с письмами с других доменов. Законные рекрутеры Anthropic никогда не будут просить деньги, сборы или банковскую информацию до вашего первого рабочего дня. Если вы сомневаетесь в сообщении, не переходите по ссылкам — посетите anthropic.com/careers прямо для подтверждения открытых вакансий.

Чем мы отличаемся

Мы считаем, что исследования ИИ с наибольшим воздействием — это большие научные проекты. В Anthropic мы работаем как единая сплоченная команда над несколькими крупномасштабными исследовательскими инициативами. И мы ценим влияние — продвижение наших долгосрочных целей по созданию управляемого, заслуживающего доверия ИИ — а не работу над мелкими и более специфическими задачами. Мы рассматриваем исследования ИИ как эмпирическую науку, которая имеет столько общего с физикой и биологией, сколько и с традиционными усилиями в области компьютерных наук. Мы — чрезвычайно совместная группа и часто проводим исследовательские обсуждения, чтобы убедиться, что занимаемся работой с наибольшим воздействием в любой момент времени. Поэтому мы очень ценим навыки коммуникации.

Самый простой способ понять наши исследовательские направления — прочитать наши последние исследования. Эти исследования продолжают многие направления, над которыми работала наша команда до Anthropic, включая: GPT-3, интерпретируемость на основе цепей, мультимодальные нейроны, законы масштабирования, ИИ и вычисления, конкретные проблемы безопасности ИИ и обучение на основе человеческих предпочтений.

Присоединяйтесь к нам!

Anthropic — это корпорация общественной пользы с главным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований акциями, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами. Руководство по использованию ИИ кандидатами: Узнайте о нашей политике использования ИИ в процессе подачи заявки

Откликнуться

Full-Stack разработчик (Reinforcement Learning)

О компании Anthropic

О роли

Что вы будете делать

Вы можете подойти, если

Сильные кандидаты также могут иметь

Примеры проектов

Логистика

Чем мы отличаемся

Присоединяйтесь к нам!

Наш телеграм канал с вакансиями каждый день

Сопроводим до оффера

Сопроводим до оффера

Похожие вакансии

Fullstack разработчик

Fullstack разработчик

Fullstack разработчик

Fullstack-разработчик

Фуллстек (Node.js/React ) разработчик

Fullstack-разработчик (PHP, JavaScript)