Обязанности:

• Разрабатывать платформу данных (Spark на Kubernetes с хранением в YTsaurus, Clickhouse, Postgres) с использованием Spark/PySpark, Kafka, Airflow, SQL, Scala/Java, Python.

• Организовывать конвейеры потоков данных для ML, сервисов data-продуктов (включая Near Real-time режим).

• Строить витрину событий для сервисов целевого маркетинга и для ML.

• Работать с различными базами, API и платформами данных.

• Парсить JSON-файлы, работать с гео-слоями.

• Развиваться в части архитектуры и разработки для тестирования и выбора оптимальной реализации дата-продуктов.

• Участвовать в разработке процесса управления релизными циклами.

• Профилировать данные, проводить очистку от дублей и ошибок, разрабатывать контроли по интеграциям.

• Разрабатывать детальный слой данных для витрин, оптимальный с точки зрения быстродействия и комбинируемости с другими сущностями детального слоя с использованием Spark/PySpark, Kafka, Airflow, SQL, Python.

• Интегрировать платформу данных с источниками данных (Kafka, СУБД, файлы) по регламенту.

• Участвовать в разработке процесса управления релизными циклами.

Требования:

• Хорошее знание Spark, Clickhouse.

• Желание работать со Scala и профессиональное владение SQL.

• Желание разбираться в современном и молодом стэке (YTsaurus, Flink, Apache Pinot).

• Опыт в проектах построения корпоративных хранилищ данных.

• Умение писать и разбираться в коде Python/Java/Scala/Spark/PySpark/Airflow.

• Знакомство с NoSQL базами данных.

Сопроводим до оффера

Сопроводим до оффера

Data Engineer

Сопроводим до оффера

Сопроводим до оффера