Чем предстоит заниматься:
Собирать, обрабатывать и анализировать реальные данные из транзакционных систем, обеспечивать их качество и целостность.
Разрабатывать, внедрять и поддерживать ETL‑процессы (извлечение, трансформация и загрузка данных) для интеграции информации из разнородных источников.
Создавать и сопровождать витрины данных, структурируя информацию под конкретные бизнес‑задачи и запросы пользователей.
Оптимизировать архитектуру и производительность хранилищ данных в т.ч. настраивать индексы, партиционирование и способы хранения для ускорения запросов и снижения нагрузки на систему.
Взаимодействовать с командой аналитиков: уточнять требования к данным, согласовывать структуру витрин и отчётов, помогать в поиске и устранении проблем с данными.
Проектировать и поддерживать пайплайны данных (data pipelines), гарантируя надёжность, масштабируемость и отказоустойчивость процессов обработки.
Документировать процессы работы с данными: описывать схемы баз данных, ETL‑логику, интерфейсы обмена и правила трансформации.
Мониторить работу ETL‑процессов и хранилищ: выявлять узкие места, ошибки загрузки и задержки, оперативно устранять инциденты.
Участвовать в развитии стратегии работы с данными в компании: предлагать решения по улучшению качества данных, автоматизации процессов и внедрению новых инструментов.
Мы ждём, что вы:
Владеете SQL на продвинутом уровне: пишете сложные запросы, оптимизируете планы выполнения, работаете с оконными функциями, хранимыми процедурами и триггерами.
Уверенно программируете на Python для задач обработки данных: используете библиотеки pandas, numpy, pyspark и др., пишете скрипты автоматизации и компоненты ETL.
Имеете практический опыт работы с ETL‑инструментами и оркестрацией процессов, в т. ч. с Apache Airflow (создаёте DAG, настраиваете сенсоры и операторы, управляете зависимостями задач).
Работали с технологиями больших данных (Big Data): знакомы с экосистемой Hadoop, используете Spark (PySpark/Spark SQL) для распределённой обработки, понимаете принципы работы HDFS, Hive, HBase и аналогичных решений.
Знаете принципы проектирования хранилищ данных (Data Warehouse) и витрин данных (Data Marts): знакомы с методологиями Kimball и Inmon, умеете строить схемы «звезда» и «снежинка».
Имеете опыт работы с BI‑системами (Tableau, Power BI, Looker и т. п.) и понимаете, как готовить данные для визуализации: создаёте семантические слои, метрики и дашборды совместно с аналитиками.
Понимаете основы распределённых систем и облачных платформ (AWS, GCP, Azure): работали с облачными хранилищами (S3, BigQuery, Redshift, Synapse и т. д.) и сервисами обработки данных.
Умеете читать и проектировать схемы баз данных, работать с реляционными (PostgreSQL, MySQL, Oracle) и, желательно, NoSQL‑системами (MongoDB, Cassandra).
Обладаете навыками документирования технических решений и процессов, чётко формулируете мысли в устной и письменной коммуникации.
Готовы к непрерывному обучению: следите за трендами в области Data Engineering, изучаете новые инструменты и подходы к работе с данными.
Почему стоит к нам прийти:
Место работы: Рублёво-Успенское шоссе, 1-й километр, 1Б.
График: 5/2, с 09:00 до 18:00, в пятницу — до 16:45.
Присоединяйтесь к команде «Мособлгаза» — здесь вы сможете решать масштабные задачи и расти вместе с одной из ведущих компаний отрасли!
Будьте осторожны: если работодатель просит войти через Google, iCloud или Госуслуги, прислать код или пароль, запустить ПО или перевести деньги — это мошенники.