О компании Anthropic
Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.
Организация Reinforcement Learning (обучение с подкреплением) в Anthropic возглавляет исследования и разработки, которые обучают Claude быть способным, надежным и безопасным. Мы внесли вклад в каждую модель Claude, существенно повлияв на автономность и возможности кодирования наших самых продвинутых моделей. Наша работа охватывает разработку систем, позволяющих моделям эффективно использовать компьютеры, продвижение генерации кода с помощью обучения с подкреплением, пионерские фундаментальные исследования RL для больших языковых моделей и создание масштабируемых методологий обучения.
Организация RL структурирована вокруг четырех ключевых целей: решение научных задач долгосрочных задач и непрерывного обучения, масштабирование данных RL и сред для обеспечения их полноты и разнообразия, автоматизация полного цикла разработки программного обеспечения и обучение передовой производственной модели. Мы тесно сотрудничаем с командами по выравниванию и безопасности Anthropic, чтобы гарантировать, что наши системы одновременно способны и безопасны.
Наши инженерные команды создают среды, системы оценки, каналы данных и инструменты, которые делают все это возможным: от реалистичных агентных тренировочных сред и масштабируемой генерации данных кода до платформ сбора данных с участием человека и операций производственного обучения.
О роли
В качестве Full-Stack Software Engineer в подразделении Reinforcement Learning вы будете создавать платформы, инструменты и интерфейсы, которые обеспечивают создание сред RL, сбор данных и наблюдаемость обучения. Наша способность обучать передовые модели зависит от генерации разнообразных, высококачественных тренировочных данных — и продукты, которые вы создадите, делают это возможным для исследователей, поставщиков и разметчиков данных.
Это роль инженера-программиста, встроенная в исследовательские команды. Вы будете полностью отвечать за продукт — от бэкенд-сервисов и API до веб-интерфейсов, на которые ежедневно полагаются внутренние исследователи, внешние поставщики и разметчики данных. Вам не нужен опыт в исследовании машинного обучения — главное — сильные навыки full-stack разработки и способность создавать отточенные, надежные продукты в быстро меняющейся среде.
Что вы будете делать:
- Создавать и расширять веб-платформы для создания, управления и проверки качества сред RL — включая конфигурацию среды, версионирование и рабочие процессы валидации
- Разрабатывать интерфейсы и инструменты для поставщиков, которые позволяют внешним партнерам создавать, отправлять и улучшать тренировочные среды с минимальными препятствиями
- Проектировать и внедрять платформы для масштабного сбора данных с участием человека, включая рабочие процессы разметки, системы контроля качества и механизмы обратной связи
- Создавать панели оценки и интерфейсы наблюдаемости, которые дают исследователям возможность в реальном времени видеть качество среды, состояние тренировочных запусков и целостность сигнала вознаграждения
- Разрабатывать бэкенд-сервисы и API, которые связывают инструменты создания среды, системы сбора данных и инфраструктуру обучения RL
- Создавать и расширять масштабируемые каналы генерации данных кода, создавая разнообразные программные задачи с надежными сигналами вознаграждения на разных языках и уровнях сложности
- Разрабатывать автоматизацию адаптации и инструменты документации, чтобы новые поставщики и внутренние пользователи могли быстро освоиться
- Сотрудничать с исследователями RL, командами по операциям с данными и управлению поставщиками, чтобы переводить их потребности в хорошо продуманные продуктовые решения
Вы можете подойти, если вы:
- Обладаете крепкими основами программной инженерии с опытом full-stack разработки
- Владеете Python и современными веб-фреймворками (React, TypeScript или аналогичными)
- Имеете опыт создания и выпуска продуктов с пользовательским интерфейсом, внутренних инструментов или платформ для разработчиков
- Можете полностью отвечать за продукт — бэкенд, фронтенд, дизайн API, схему базы данных
- Имеете опыт работы с реляционными базами данных, шаблонами проектирования API и системами аутентификации/авторизации
- Заботитесь о пользовательском опыте и умеете создавать интерфейсы, интуитивно понятные как техническим, так и нетехническим пользователям
- Четко общаетесь с исследователями, операционными командами и инженерами, умеете переводить неоднозначные требования в четко очерченные задачи
- Мотивированы созданием отличных платформ
- Действуете с высокой инициативой: самостоятельно определяете, что нужно сделать, и продвигаете это вперед
- Процветаете в быстро меняющейся среде, где приоритеты меняются, а новые задачи появляются регулярно
- Заботитесь о миссии Anthropic — создавать безопасный и полезный ИИ, и хотите, чтобы ваша работа способствовала этой цели
Желательные качества у сильных кандидатов:
- Опыт создания платформ для сбора, разметки или аннотирования данных
- Опыт создания мультиарендных платформ с управлением ролями и рабочими процессами управления поставщиками
- Опыт работы с облачной инфраструктурой (GCP или AWS), Docker и CI/CD пайплайнами
- Знакомство с процессами обучения, дообучения или оценки больших языковых моделей (LLM)
- Опыт работы с асинхронными Python-фреймворками (Trio, asyncio) или проектированием высокопроизводительных API
- Опыт создания панелей мониторинга, инструментов наблюдаемости или мониторинга
- Опыт работы с внешними поставщиками или партнерами по технической интеграции
Примеры проектов:
- Создание единой платформы для сбора данных с участием человека, которая интегрирует рабочие процессы разметки, управление поставщиками и контроль качества для сложных агентных задач
- Разработка автоматизации адаптации поставщиков, которая управляет доступом к Docker-реестру, управлением API-токенами и валидацией среды
- Создание панелей оценки и наблюдаемости, которые выявляют обходы вознаграждения, измеряют сложность среды и предоставляют обратную связь в реальном времени во время производственного обучения
- Создание рабочих процессов проверки качества среды, которые позволяют исследователям просматривать, оценивать и оставлять отзывы о тренировочных средах
- Разработка автоматизированных каналов проверки качества среды, которые валидируют корректность и калибровку сложности перед развертыванием в производственном обучении
- Создание внутренних инструментов для просмотра и анализа результатов тренировочных запусков, статистики среды и прогресса сбора данных
Годовой диапазон компенсации для этой роли указан ниже.
Для ролей в продажах указанный диапазон — это диапазон On Target Earnings ("OTE"), что означает, что он включает как целевые комиссионные/бонусы по продажам, так и годовую базовую зарплату по роли.
Годовая зарплата:
300 000 - 405 000 долларов США
Логистика
Требования к образованию: Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт. Политика гибридной работы в зависимости от местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.
Спонсорство визы: Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визу для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.
Мы призываем вас подавать заявку, даже если вы не уверены, что соответствуете всем требованиям.