Ищем сильного Big Data разработчика, который будет проектировать и оптимизировать высоконагруженные системы обработки больших объёмов данных.
Что предстоит делать:
- Создавать и поддерживать ETL-пайплайны на Spark (DataFrame API, Scala), а также строить процессы обработки потоковых сообщений через Kafka.
- Работать в полном стеке Big Data: экосистема Hadoop (включая Arenadata Hadoop), Hive и оркестрация задач в Airflow (YAML-конфигурации).
- Заниматься оптимизацией: рефакторить код, ускорять SQL-запросы и Spark-приложения, находить и устранять уязвимости производительности.
- Обеспечивать качество и надёжность решений: проводить code review, писать скрипты очистки и исправления данных, быстро решать инциденты.
- Взаимодействовать с командой: готовить релизные артефакты, подробно документировать код и ставить задачи инженерам сопровождения.
Что мы ожидаем от вас:
- Уверенный опыт промышленной разработки на SQL, Spark, Hadoop и Hive.
- Практическая работа с различными СУБД (Oracle, PostgreSQL, MySQL и др.).
- Понимание архитектуры DWH / Data Lake и процессов CI/CD.
- Уверенное владение Git.
- Ответственность и умение быстро вникать в бизнес-потребности заказчика.
Будет существенным преимуществом:
- Глубокое знание внутренних механизмов Spark.
- Опыт работы именно с Arenadata Hadoop.
- Навыки проведения ПСИ и решения сложных дефектов в данных.
- Уверенное владение Excel для аналитики.