Мы ищем человека, который будет работать с большими объёмами неструктурированной текстовой информации. Основные задачи — собирать и исследовать текстовые данные из всех подразделений банка, формулировать и проверять гипотезы, а также готовить качественные датасеты для обучения, тестирования и промышленного запуска моделей NLP.
Что предстоит делать:
- Извлекать и объединять данные из HDFS и S3, из баз GreenPlum, OracleDB, PostgreSQL, а также из файловых хранилищ и сетевых дисков.
- Создавать понятные визуализации данных с помощью Superset и Streamlit.
- Разрабатывать и поддерживать пайплайны предобработки данных для тренировки и тестирования моделей.
- Проводить глубокий анализ данных, выдвигать гипотезы и проверять их на Python (pandas, polars) и SQL.
- Организовывать процесс разметки неструктурированных данных: от проектирования всей схемы разметки до контроля качества и валидации результатов.
- Анализировать эффективность текущих GenAI- и NLP-сервисов банка.
Что мы ожидаем от кандидата:
- Отличное владение SQL и уверенный опыт работы с реляционными СУБД и распределёнными хранилищами данных.
- Глубокие знания Python и стека анализа/визуализации: pandas, numpy, polars, matplotlib, seaborn, altair.
- Желательно понимание базовых принципов NLP и сильное желание развиваться в этой области.
- Практический опыт создания ETL/ELT-пайплайнов.
- Базовые знания Data Science будут существенным преимуществом.