Смартап - компания с международными корнями, специализирующаяся на заказной разработке технически сложных IT-решений более 19 лет. У нас за плечами большой опыт работы на глобальном рынке. Несем в себе преимущества культуры и процессов международной компании.
Реализуем проекты для таких компаний, как: Сбер, ВТБ, Газпромбанк, МТС, Яндекс, НЛМК и других.
Сейчас мы ищем ML-инженера для участия в проекте в сфере Charity Tеch (частичная занятость)
Задачи:
Разработка и поддержка отказоустойчивых ML-пайплайнов для классификации текстов (с использованием Airflow), включая этапы сбора данных, feature engineering, обучения, инференса и интеграции с системой разметки.
Проектирование, обучение и дообучение моделей на основе BERT/RuBERT/Sentence Transformers для мультимаркерной классификации социального контента (мероприятия, меры поддержки, курсы и т.д.).
Создание и поддержка высоконагруженного API (на FastAPI) для автоматической разметки контента с помощью каскадной системы: ML-модель → LLM-верификация → эксперт.
Внедрение и настройка процесса Active Learning для итеративной разметки данных и переобучения моделей.
Интеграция с LLM-провайдерами (YandexGPT, OpenAI) для верификации предсказаний и промпт-инжиниринга.
Автоматизация экспериментов, версионирования данных и моделей (с использованием DVC и MLflow).
Подготовка и обработка датасетов из гетерогенных источников (ClickHouse, PostgreSQL, CSV).
Требования:
Опыт коммерческой разработки на Python от 2-х лет.
Уверенное знание фреймворков для ML/NLP: PyTorch, HuggingFace Transformers, scikit-learn, sentence-transformers.
Опыт разработки и поддержки бэкенд-сервисов на FastAPI или аналогичных фреймворках.
Практический опыт построения и оркестрации ML-пайплайнов с помощью Apache Airflow.
Уверенное знание и опыт работы с PostgreSQL и/или ClickHouse.
Опыт работы с облачной инфраструктурой Yandex Cloud (или аналогичной: AWS, GCP, Azure).
Опыт версионирования данных и моделей (DVC) и логирования экспериментов (MLflow, Weights & Biases).
Умение работать в команде и участвовать в сквозных проектах (бэкенд, данные, ML).
Будет плюсом:
Опыт настройки и внедрения процессов Active Learning.
Опыт интеграции с LLM-провайдерами (YandexGPT API, OpenAI и др.) и промпт-инжиниринга.
Опыт построения гибридных систем (ML + LLM) и каскадных классификаторов.
Знание принципов работы и опыт развертывания LLM с помощью vLLM или аналогичных фреймворков.
Понимание принципов RAG и смыслового поиска на основе эмбеддингов.
Мы предлагаем:
При отклике, пожалуйста, укажите, сколько часов в неделю готовы работать на проекте