Команда Data Platform отвечает за полный жизненный цикл данных в Perplexity — от их сбора до обработки, хранения и предоставления, обеспечивая работу продуктовых функций, аналитики, экспериментов, AI-нагрузок и корпоративного озера данных.
Команда определяет архитектуру пакетных и потоковых систем, стек оркестрации и наблюдаемости, а также платформу самообслуживания данных, при этом продуманно сочетая платформы, такие как Databricks и Snowflake, с открытыми технологиями, включая Spark, Kafka, Flink, Airflow, Dagster, dbt, Iceberg, Delta Lake и ClickHouse.
В этой старшей/ведущей роли вы будете формировать архитектуру, устанавливать стандарты и определять долгосрочное техническое направление экосистемы данных Perplexity.
Проектировать и эксплуатировать масштабные пакетные и потоковые конвейеры данных, которые напрямую обеспечивают работу продуктовых функций Perplexity, AI-обучения и оценочных рабочих процессов, аналитики и экспериментов.
Создавать событийно-ориентированные и потоковые системы (Kafka, Kinesis, PubSub или аналогичные) для реального времени сбора, трансформации и доставки данных, а также пакетные фреймворки для обратной загрузки, агрегаций и офлайн-вычислений.
Руководить архитектурой оркестрации данных с использованием инструментов, таких как Airflow или Dagster, отвечая за планирование, управление зависимостями, повторные попытки, SLA и сквозную наблюдаемость критически важных потоков данных.
Устанавливать и обеспечивать гарантии корректности данных, их актуальности, происхождения и возможности восстановления, проектируя системы, способные справляться с быстрым ростом масштабов, частичными сбоями и изменяющимися схемами без нарушения AI-нагрузок или пользовательского опыта.
Создавать платформы самообслуживания данных, которые позволяют инженерам, дата-сайентистам и аналитикам безопасно находить данные, определять контракты и создавать и эксплуатировать собственные конвейеры с минимальными препятствиями.
Улучшать опыт разработчиков через лучшие абстракции, продуманные стандартизированные пути и стандарты моделирования данных, тестирования, валидации и развертывания, рассматривая платформу данных как продукт, используемый многими командами.
Принимать архитектурные решения по хранению, вычислениям, оркестрации и API данных, тесно сотрудничая с продуктовыми инженерами и специалистами по данным для согласования экосистемы данных с дорожной картой Perplexity.
Наставлять инженеров, проводить ревью дизайнов и повышать технический уровень инфраструктуры данных через продуманные отзывы, документацию и практическое сотрудничество.
Опыт разработки программного обеспечения 5+ лет (Senior) или 8+ лет (Staff).
Сильный опыт создания производственных систем инфраструктуры данных.
Практический опыт пакетной и/или потоковой обработки данных в масштабе.
Глубокое знакомство с системами оркестрации данных (Airflow, Dagster или аналогичными).
Владение Python и как минимум одним дополнительным языком бэкенда (Go, TypeScript и др.).
Системное мышление в вопросах надежности, задержек, стоимости и компромиссов сложности.
Опыт поддержки рабочих процессов ML/AI, конвейеров обучения или систем оценки.
Знакомство с инструментами качества данных, происхождения, наблюдаемости и управления.
Ранее был ответственным за внутренние платформы, используемые многими командами.
Если вас вдохновляет эта роль, мы призываем вас подать заявку, даже если ваш опыт не полностью соответствует всем перечисленным квалификациям.
Будьте осторожны: если работодатель просит войти через Google, iCloud или Госуслуги, прислать код или пароль, запустить ПО или перевести деньги — это мошенники.