Мы ищем человека, который будет работать с большими объёмами неструктурированной текстовой информации. Основные задачи — собирать и исследовать текстовые данные из всех подразделений банка, формулировать и проверять гипотезы, а также готовить качественные датасеты для обучения, тестирования и промышленного запуска моделей NLP.

Что предстоит делать:

Извлекать и объединять данные из HDFS и S3, из баз GreenPlum, OracleDB, PostgreSQL, а также из файловых хранилищ и сетевых дисков.
Создавать понятные визуализации данных с помощью Superset и Streamlit.
Разрабатывать и поддерживать пайплайны предобработки данных для тренировки и тестирования моделей.
Проводить глубокий анализ данных, выдвигать гипотезы и проверять их на Python (pandas, polars) и SQL.
Организовывать процесс разметки неструктурированных данных: от проектирования всей схемы разметки до контроля качества и валидации результатов.
Анализировать эффективность текущих GenAI- и NLP-сервисов банка.

Что мы ожидаем от кандидата:

Отличное владение SQL и уверенный опыт работы с реляционными СУБД и распределёнными хранилищами данных.
Глубокие знания Python и стека анализа/визуализации: pandas, numpy, polars, matplotlib, seaborn, altair.
Желательно понимание базовых принципов NLP и сильное желание развиваться в этой области.
Практический опыт создания ETL/ELT-пайплайнов.
Базовые знания Data Science будут существенным преимуществом.

Специалист по обработке и анализу данных

Сопроводим до оффера

Сопроводим до оффера

Сопроводим до оффера

Сопроводим до оффера