О компании Anthropic
Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.
О роли
Anthropic управляет одним из крупнейших и самых быстрорастущих парков ускорителей в отрасли — охватывающим несколько семейств ускорителей и облаков. Команда инженерии емкости ускорителей (Accelerator Capacity Engineering, ACE) отвечает за то, чтобы каждый чип в этом парке был учтен, хорошо использовался и эффективно распределялся. Мы владеем данными, инструментами и операционными системами, которые позволяют Anthropic планировать, измерять и максимизировать использование как собственных, так и сторонних вычислительных ресурсов.
В качестве инженера в ACE вы будете создавать производственные системы, которые обеспечивают эту работу: конвейеры данных, которые собирают и нормализуют телеметрию из разнородных облачных сред, инструменты наблюдаемости, которые дают организации возможность видеть состояние парка в реальном времени, и инструменты измерения производительности, которые оценивают, насколько эффективно каждая основная рабочая нагрузка использует аппаратное обеспечение, на котором она выполняется. От вас ожидается ежедневное написание кода производственного качества, работа с инфраструктурой, основанной на Kubernetes, в значительном масштабе и прямое влияние на решения в одной из крупнейших статей расходов Anthropic.
Вы будете тесно сотрудничать с командами исследовательской инженерии, инфраструктуры, инференса и финансов. Работа требует человека, который с комфортом может переключаться между инженерией данных, системной инженерией и наблюдаемостью — и который процветает в условиях высокой автономии и неопределенности.
За что отвечает эта команда
Работа команды охватывает три функциональные области. В зависимости от вашего опыта и интересов вы будете сосредоточены преимущественно в одной из них, но границы гибкие, и задачи пересекаются:
- Инфраструктура данных — сбор, нормализация и предоставление данных по всему парку, которые питают все остальные системы. Это означает создание конвейеров, которые собирают телеметрию по занятости и использованию из кластеров Kubernetes, нормализацию данных по биллингу и использованию от разных облачных провайдеров и поддержку слоя BigQuery, к которому обращается остальная организация. Здесь важны корректность, полнота и задержка.
- Наблюдаемость парка — обеспечение понятности и оперативности состояния парка ускорителей в реальном времени. Это включает создание инструментов для мониторинга состояния кластеров, платформ планирования емкости, оповещений о падениях занятости и проблемах с распределением, а также внедрение системных улучшений в планировании и фрагментации. Работа находится на пересечении операций Kubernetes и межкомандного взаимодействия.
- Эффективность вычислений — измерение и улучшение того, насколько эффективно каждая основная рабочая нагрузка использует аппаратное обеспечение, на котором она выполняется. Это включает инструментирование метрик использования в системах обучения, инференса и оценки, создание инфраструктуры для бенчмаркинга, установление базовых показателей для каждой конфигурации и тесное сотрудничество с командами, ответственными за системы, для устранения пробелов в эффективности.
- Внутренние инструменты для вычислений — создание платформ и интерфейсов, которые делают данные о емкости доступными для всей организации. Это включает инструменты планирования емкости, системы атрибуции рабочих нагрузок, панели управления затратами и API для самообслуживания. Потребителями являются исследовательские инженеры, инфраструктурные команды, финансы и руководство — у каждого из которых разные потребности и уровень технической подготовки. Работа требует продуктового мышления не меньше, чем инженерного: понимание реальных потребностей пользователей, определение контрактов схем и обеспечение доступности данных.
Вы будете распределены в подкоманду в зависимости от вашего опыта и интересов. Мы особенно заинтересованы в найме для Data Platform, но сильные кандидаты для любой из трех активных подкоманд будут рассмотрены.
Что вы будете делать
- Создавать и эксплуатировать конвейеры данных, которые собирают данные о занятости, использовании и стоимости ускорителей от нескольких облачных провайдеров в BigQuery. Отвечать за полноту данных, SLO по задержкам, обнаружение пропусков и автоматизацию заполнения данных.
- Разрабатывать и поддерживать инфраструктуру наблюдаемости — правила записи Prometheus, панели Grafana и системы оповещений — которые предоставляют действенные сигналы о состоянии парка, занятости и эффективности.
- Инструментировать и анализировать метрики эффективности вычислений для рабочих нагрузок обучения, инференса и оценки. Создавать инфраструктуру для бенчмаркинга, устанавливать базовые показатели для каждой конфигурации и работать с командами, ответственными за системы, для улучшения использования ресурсов.
- Создавать внутренние инструменты и платформы, которые позволяют планировать емкость, атрибутировать рабочие нагрузки и отлаживать кластеры. Потребителями являются другие инженерные команды, финансы и руководство — не внешние пользователи.
- Эксплуатировать системы на базе Kubernetes в масштабе — развертывать агенты сбора данных, управлять инфраструктурой маркировки рабочих нагрузок и понимать, как таинты, резервации и планирование влияют на емкость.
- Нормализовать и согласовывать данные из разнородных источников — включая экспорты биллинга AWS, GCP и Azure, специфичные форматы телеметрии поставщиков и внутренние системы с разными схемами и условиями биллинга.
- Сотрудничать через организационные границы с командами исследовательской инженерии, инфраструктуры, инференса и финансов. Собирать требования от технических заинтересованных сторон, преобразовывать их в полезные системы и объяснять компромиссы нетехнической аудитории.
Вы можете подойти, если у вас есть
- Опыт разработки программного обеспечения более 5 лет с успешным опытом создания и эксплуатации производственных систем. Вы пишете код каждый день — это практическая инженерная роль, а не роль планирования или координации.
- Глубокое знание Kubernetes на уровне эксплуатации — вы управляли производственными кластерами K8s в значительном масштабе, а не просто писали манифесты. Уверенность в планировании, таинтах, метках, управлении узлами и отладке проблем на уровне кластера.
- Опыт инженерии конвейеров данных — проектирование, создание и сопровождение полного жизненного цикла производственных конвейеров данных. Опыт работы с хранилищами данных (предпочтительно BigQuery), управлением схемами, потоковым сбором данных, SLO по задержкам и полноте, а также сильное чувство корректности.
- Опыт работы с инструментами наблюдаемости — Prometheus, PromQL и Grafana являются критически важными для этой команды. Опыт написания правил записи, понимание семантики метрик и создание систем мониторинга, на которые действительно полагаются инженерные команды.
- Python и SQL производственного качества. Большая часть кода конвейеров написана на Python; слой представления — это BigQuery SQL, включая табличные функции и представления. Оба должны быть идиоматичными, хорошо протестированными и поддерживаемыми.
- Знание хотя бы одного крупного облачного провайдера (AWS, GCP или Azure) на уровне инфраструктуры — вычисления, биллинг, API использования, инструменты управления затратами. Опыт работы с несколькими облаками является большим плюсом.
- Высокая автономия и сильные навыки межкомандного общения. Вы можете самостоятельно собирать требования, ориентироваться в неопределенности и работать через организационные границы. Инициативность и чувство ответственности важнее, чем отточенность.
Сильные кандидаты также могут иметь
- Опыт многократного сбора данных из облаков — особенно работа с API AWS и GCP, экспортами биллинга или специфичными форматами телеметрии поставщиков. Опыт нормализации данных от внешних провайдеров с разными условиями биллинга напрямую применим.
- Знание инфраструктуры ускорителей — метрики GPU (DCGM), использование TPU, метрики мощности и использования Trainium или опыт работы с системами обучения/инференса ML на уровне аппаратного обеспечения.
- Опыт в инженерии производительности и бенчмаркинге — создание тестовых стендов, установление базовых показателей, анализ эффективности вычислений (использование FLOPs, пропускная способность памяти, пропускная способность межсоединений) и работа с системными командами для диагностики и улучшения производительности.
- Мышление «данные как продукт» — опыт создания внутренних продуктов данных с доступом самообслуживания, контрактами схем, API, документацией и возможностью поиска. Не просто создание конвейеров, а понимание того, как данные платформы потребляются.
- Опыт планирования емкости, управления ресурсами или систем атрибуции затрат в гипермасштабных или крупных ML-средах. FinOps, системы распределения затрат или моделирование инфраструктурных расходов.
Знание ClickHouse, Terraform или Rust. ClickHouse — текущий потоковый стор команды; Terraform — для инфраструктуры как кода; Rust — для высокопроизводительных агентов сбора данных.
Годовой диапазон компенсации для этой роли указан ниже.
Для ролей в продажах указанный диапазон — это диапазон целевого дохода ("OTE"), что означает, что он включает как целевые комиссионные/бонусы по продажам, так и годовую базовую зарплату по роли.
Годовая зарплата:
405 000 - 485 000 долларов США
Логистика
Требования к образованию: Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт. Политика гибридной работы в зависимости от местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.
Спонсорство визы: Мы спонсируем визы! Однако мы не можем гарантированно спонсировать визу для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.
Мы призываем вас подавать заявку, даже если вы не уверены, что соответствуете всем требованиям. Не все сильные кандидаты соответствуют каждому из перечисленных требований. Исследования показывают, что люди из недостаточно представленных групп чаще испытывают синдром самозванца и сомневаются в силе своей кандидатуры, поэтому мы настоятельно рекомендуем не исключать себя преждевременно и подавать заявку, если вас интересует эта работа. Мы считаем, что системы ИИ, подобные тем, что мы создаем, имеют огромные социальные и этические последствия. Это делает представительство еще более важным, и мы стремимся включать разнообразные точки зрения в нашу команду.
Ваша безопасность для нас важна. Чтобы защитить себя от возможных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com. В некоторых случаях мы сотрудничаем с проверенными рекрутинговыми агентствами, которые представляются как работающие от имени Anthropic. Будьте осторожны с письмами с других доменов. Законные рекрутеры Anthropic никогда не будут просить деньги, сборы или банковскую информацию до вашего первого рабочего дня. Если вы сомневаетесь в каком-либо сообщении, не переходите по ссылкам — посетите anthropic.com/careers напрямую для подтверждения открытых вакансий.
Чем мы отличаемся
Мы считаем, что исследования ИИ с наибольшим воздействием будут крупномасштабными научными проектами. В Anthropic мы работаем как единая сплоченная команда над несколькими крупномасштабными исследовательскими инициативами. И мы ценим влияние — продвижение наших долгосрочных целей по созданию управляемого, надежного ИИ — больше, чем работу над мелкими и более специфическими задачами. Мы рассматриваем исследования ИИ как эмпирическую науку, которая имеет столько общего с физикой и биологией, сколько и с традиционными усилиями в области компьютерных наук. Мы — чрезвычайно совместная группа и часто проводим исследовательские обсуждения, чтобы убедиться, что занимаемся наиболее значимыми задачами в любой момент времени. Поэтому мы очень ценим навыки коммуникации.
Самый простой способ понять наши исследовательские направления — прочитать наши последние исследования. Эти исследования продолжают многие направления, над которыми наша команда работала до Anthropic, включая: GPT-3, интерпретируемость на основе цепей, мультимодальные нейроны, законы масштабирования, ИИ и вычисления, конкретные проблемы безопасности ИИ и обучение на основе человеческих предпочтений.
Присоединяйтесь к нам!
Anthropic — это корпорация общественной пользы с главным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований акциями, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами.
Руководство по использованию ИИ кандидатами: Узнайте о нашей политике использования ИИ в процессе подачи заявки.