Обязанности:
• Разрабатывать платформу данных (Spark на Kubernetes с хранением в YTsaurus, Clickhouse, Postgres) с использованием Spark/PySpark, Kafka, Airflow, SQL, Scala/Java, Python.
• Организовывать конвейеры потоков данных для ML, сервисов data-продуктов (включая Near Real-time режим).
• Строить витрину событий для сервисов целевого маркетинга и для ML.
• Работать с различными базами, API и платформами данных.
• Парсить JSON-файлы, работать с гео-слоями.
• Развиваться в части архитектуры и разработки для тестирования и выбора оптимальной реализации дата-продуктов.
• Участвовать в разработке процесса управления релизными циклами.
• Профилировать данные, проводить очистку от дублей и ошибок, разрабатывать контроли по интеграциям.
• Разрабатывать детальный слой данных для витрин, оптимальный с точки зрения быстродействия и комбинируемости с другими сущностями детального слоя с использованием Spark/PySpark, Kafka, Airflow, SQL, Python.
• Интегрировать платформу данных с источниками данных (Kafka, СУБД, файлы) по регламенту.
• Участвовать в разработке процесса управления релизными циклами.
Требования:
• Хорошее знание Spark, Clickhouse.
• Желание работать со Scala и профессиональное владение SQL.
• Желание разбираться в современном и молодом стэке (YTsaurus, Flink, Apache Pinot).
• Опыт в проектах построения корпоративных хранилищ данных.
• Умение писать и разбираться в коде Python/Java/Scala/Spark/PySpark/Airflow.
• Знакомство с NoSQL базами данных.