О компании Anthropic
Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.
О команде
Safeguards Labs — новая команда, работающая на стыке исследований и инженерии, созданная для изучения новых методов безопасности, которые защищают Claude и людей, которые им пользуются. Мы создаем прототипы новых подходов к безопасным моделям, мерам защиты при использовании и безопасности в производстве — испытывая идеи через офлайн-анализ и на подмножествах трафика, прежде чем они перейдут в производственные системы, управляемые нашими партнёрскими командами Safeguards. Наша работа тесно связана с предотвращением злоупотреблений аккаунтами, мерами защиты моделей и другими подкомандами по безопасности, и мы выступаем в роли исследовательского подразделения, способного брать на себя амбициозные и неоднозначные задачи и превращать их в реализованные меры защиты.
О роли
Мы нанимаем исследовательских инженеров для определения и реализации исследовательской повестки Labs. Вы будете самостоятельно определять масштаб своих проектов, проводить эксперименты от начала до конца и решать, когда идея готова для передачи в производственную команду — или когда её стоит прекратить и перейти к следующему проекту. Команда небольшая и формируется сознательно с соотношением примерно 3:1 исследователей к инженерам-программистам, поэтому каждый человек имеет значительную свободу в выборе задач и большой вклад в направление команды.
Обязанности:
- Возглавлять и участвовать в исследовательских проектах, изучающих новые методы обнаружения злоупотреблений Claude, выявления злонамеренных организаций и аккаунтов, усиления мер защиты моделей и других потребностей в безопасности.
- Проектировать и проводить офлайн-анализы данных об использовании модели для выявления паттернов злоупотреблений, создавать классификаторы и системы обнаружения, а также оценивать их эффективность.
- Разрабатывать и совершенствовать прототипы, которые в конечном итоге могут передавать сигналы в систему защиты в реальном времени, сотрудничая с инженерами по вопросам технологического трансфера.
- Вносить вклад в более широкий исследовательский портфель, изучающий методы обнаружения злоупотреблений в чат-ориентированных или агентных рабочих процессах, а также обучение модели устойчиво воздерживаться от опасных ответов или поведения без чрезмерного отказа.
- Создавать оценки и методологии для измерения эффективности мер защиты, включая агентные сценарии.
- Четко оформлять результаты исследований, чтобы они могли информировать решения команд Trust & Safety, исследований и продуктов.
Вы можете подойти на эту роль, если:
- Имеете опыт самостоятельного ведения исследовательских проектов от неоднозначных постановок задач до конкретных результатов, желательно в области ИИ, машинного обучения, безопасности, целостности или смежных технических областях.
- Комфортно определяете масштаб своей работы и переключаетесь между исследованиями, инженерией и анализом в зависимости от требований проекта.
- Имеете рабочее понимание принципов работы больших языковых моделей — сэмплирование, подсказки, обучение — даже если LLM не является вашей основной специализацией.
- Владеете Python и уверенно работаете с большими наборами данных.
- Заботитесь о социальном воздействии ИИ и хотите, чтобы ваша работа напрямую снижала реальный вред.
Сильные кандидаты также могут иметь:
- Опыт создания и обучения моделей машинного обучения, включая классификаторы для обнаружения злоупотреблений, мошенничества, обеспечения целостности или безопасности.
- Знания методологий оценки языковых моделей и опыт проектирования оценок.
- Опыт работы с агентными средами и оценки поведения моделей в них.
- Опыт в области доверия и безопасности, целостности, обнаружения мошенничества, разведки угроз или противодействия враждебному машинному обучению.
- Опыт работы с red teaming, исследованиями jailbreak или методами интерпретируемости, такими как управляющие векторы.
- Историю переноса исследовательских прототипов в производственные системы.
Годовой диапазон компенсации для этой роли указан ниже.
Для ролей в продажах указанный диапазон представляет собой целевой доход ("OTE"), что означает, что диапазон включает как целевые комиссионные/бонусы за продажи, так и годовую базовую зарплату по роли.
Годовая зарплата:
350 000 - 850 000 долларов США
Логистика
Минимальное образование:
- Степень бакалавра или эквивалентное сочетание образования, обучения и/или опыта.
Требуемая область обучения:
- Область, релевантная роли, подтвержденная учебными курсами, обучением или профессиональным опытом.
Минимальный опыт работы:
- Требуемый опыт будет соответствовать внутренним требованиям уровня должности.
Политика гибридной работы в зависимости от местоположения:
- В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисе.
Спонсорство визы:
- Мы спонсируем визы! Однако мы не всегда можем успешно спонсировать визы для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.
Присоединяйтесь к нам!
Anthropic — это корпорация общественной пользы с головным офисом в Сан-Франциско. Мы предлагаем конкурентоспособную компенсацию и льготы, опциональное сопоставление пожертвований в акции, щедрый отпуск и декретный отпуск, гибкий график работы и прекрасное офисное пространство для совместной работы с коллегами.