На проект крупного банка РФ (ТОП-5) ищем Data-аналитика/разработчика
В команду ищем аналитика-разработчика для работы с массивами неструктурированных данных. Предстоит заниматься интеграцией и исследований текстовых данных из всех уголков банка, выдвигать и проверять гипотезы, а также подготавливать данные для обучения, тестирования и продакшена NLP моделей.
Чем предстоит заниматься:
- Работать с данными из HDFS и S3, баз данных (Greenplum, OracleDB, PostgreSQL), а также с файловыми шарами и сетевыми дисками.
- Подготавливать визуализации данных в Superset и Streamlit.
- Разрабатывать пайплайны подготовки данных для обучения и тестирования моделей.
- Анализировать данные, строить и проверять гипотезы с использованием Python (pandas, polars) и SQL.
- Участвовать в задачах разметки неструктурированных данных: от проектирования процесса до валидации результатов.
- Анализировать работу существующих GenAI/NLP-сервисов.
Что ожидаем:
- Уверенное знание SQL и опыт работы с популярными СУБД или распределёнными хранилищами данных.
- Владение Python и основным стеком для анализа и визуализации данных: pandas, numpy, polars, matplotlib, seaborn, altair.
- Опыт разработки ETL/ELT-пайплайнов.
- Опыт работы в роли Data Analyst или Data Engineer (желательно с задачами, выходящими за рамки только SQL и BI).
Будет преимуществом:
- Базовые знания в области Data Science.
- Понимание базовых концепций NLP и желание развиваться в этом направлении.
- Опыт работы с AI/ML-задачами.