Ищем инженера данных на DWH в индустрии. Не просто собираем и обрабатываем данные - команда является держателем бизнес-смыслов в сложной предметной области.
IT-компания из перечня Минцифры.
Особенности рабочих процессов:
- отслеживаем новые технологии и фреймворки, регулярно что-то забираем для внедрения
- команда разумных размеров - есть возможность принять участие во всех процессах, не сидеть на узкоспециализированном участке
- допустимо разумное выделение ресурсов на рефакторинг, улучшение процессов
Стек:
- реляционные БД; ядро DWH Vertica, ClickHouse, десятки разнообразных источников данных
- ETL Airflow в связке dbt для витрин
- много кастомной автоматизации на Python
- DataCatalog рукописный + OpenMetadata
- деплой docker, jenkins, gitlab/git/SVN
Ориентировочное распределение чем предстоит заниматься (довольно грубое, пропорции со временем могут смещаться в сторону точки интересов или в сторону крупных командных проектов):
- 30% доработки ETL, отражающие изменения в системах-источниках и улучшающих аналитическое хранилище
- 25% доработки утилит ETL, автоматизация процессов
- 20% поддержка текущих регулярных процессов
- 15% участие в смежных проектах
- 10% внедрение новых технологий
Особенности технологических процессов:
- базовый процесс загрузки работает достаточно редко, несколько раз в сутки по появлении инкремента
- по сути ELT с не всегда тривиальными трансформациями, специфическая предметная область
- локально погружаемся в предметную область при помощи аналитиков систем-источников
- тесное взаимодействие с субкомандами аналитиков данных, специалистами по оптимизации и моделированию
- выстроенные процессы передачи знаний в команде (актуальная база знаний и документация, регулярное ревью кода)
- иногда удаётся выделять ресурс на рефакторинг важных беспокоящих блоков
Пожелания к кандидату:
Обязательно:
- Python ядро + библиотеки для работы с данными;
- SQL на хорошем уровне (сложные запросы, оптимизация, оконные вычисления);
- знакомство с системами на linux
- наличие личного интереса в развитии рабочего стека
Желательно:
- опыт с Airflow или другим ПО для оркестрации
- СУБД Vertica, ClickHouse
- docker, git
- навыки проектирования хранилища данных
- примеры кода, ссылки на личный репозиторий
Организационное:
- Оформление по ТК, зарплата белая, есть ДМС.
- Работаем удаленно, изредка есть необходимость появляться в офисе в Москве.
- С наймом стараемся не затягивать. Собеседование, общее тестирование, по необходимости еще одно собеседование, анкета для безопасников.
- Организация в перечне IT-компаний Минцифры, есть ветка с бронированием.