Data Engineer в команду аналитической платформы
Аналитическая платформа
Кластер Analytics Platform
ЛокацияМосква, можно удаленно
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Мы — команда инженеров, которая помогает аналитикам выполнять свои задачи быстро и качественно, используя принятые в компании решения, инструменты и стандарты. Наша цель — обеспечить обновление данных в хранилище в нужные сроки с контролем полноты и качества, используя автоматизацию процессов и управление базовым слоем данных.
Примеры будущих задач:
Мы мигрируем аналитическое хранилище с Vertica на Trino, чтобы получить лучшую масштабируемость, более высокую производительность для общей аналитики и гибкость в работе с современными архитектурами данных.
Это обеспечит устойчивое развитие платформы в долгосрочной перспективе.
Хранилище используется для широкой аналитики — от продуктовых исследований до бизнес-отчетности и операционных задач.
Примеры задач:
- мигрировать расчеты на трино;
- оптимизировать витрину данных: сократить объем чтения DDS, оптимизировать модель расчетов;
- исследовать расхождения данных в Vertica-витрине и новой Trino-витрине;
- переводы тяжелых витрин данных (>1TB);
- переводы неоптимальных витрин данных: оптимизировать, чтобы влезть в квоты;
- сократить долю вертики в объеме хранимых данных.
Вам предстоит:
- разрабатывать витрины данных от источника до сопровождать миграцию из Вертики в Трино: переводить витрины данных, обновлять зависимости переведенных витрин;
- поддерживать и дорабатывать сервисы автоматизации миграции (трансляция, сверка, изменение зависимостей, переливка исторических данных);
- оптимизировать запросы, модель данных в расчетах.
Мы ждём, что вы:
- имеете опыт работы с OLAP СУБД: ClickHouse/Vertica/Trino/Greenplum;
- отлично знаете SQL в OLAP специфике, понимаете, как создавать витрины и дашборды;
- понимаете, что такое « хорошая » модель данных и чем она отличается от « плохой»;
- умеете программировать на Python;
- понимаете, как работают Git / Bitbucket / TeamCity;
- имеете опыт разработки витрин данных;
- имеете опыт разработки пайплайнов обработки данных.
Работа у нас — это:
- возможность реализовать свои идеи в проекте с многомиллионной аудиторией;
- талантливая команда, готовая поддержать ваши инициативы;
- мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;
- прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
- личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
- забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
- удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид на центр города, места для уединённой работы и зоны отдыха.