О проекте
B2B SaaS-продукт, работающий с большими объёмами слабоструктурированных документов (PDF / DOCX / XLSX) и строящий на них аналитику. Сейчас вся обработка данных — rule-based (regex + словари). Запускается контур локального LLM-инференса для нормализации и извлечения структурированных данных.
Ограничение: данные — коммерческая тайна, деплой только on-prem, облачные LLM-API исключены — используются открытые модели локально.
Junior ML/LLM-инженер Локальный LLM-инференс и извлечение данных из документов. On-prem, без облачны
Задачи
- Эксперименты с открытыми LLM: подбор моделей и промптов под задачи извлечения, сравнение результатов.
- Разработка кода извлечения структурированных данных (constrained JSON) из документов и таблиц на Python в существующем бэкенде.
- Сбор и разметка наборов для оценки качества, расчёт метрик (точность по полям), отслеживание регрессий при смене модели или промпта.
- Нормализация данных: дедупликация и сопоставление сущностей, очистка полей правилами и LLM.
- Поддержка OCR-пайплайна для сканов (Tesseract / Surya / PaddleOCR).
- Работа с очередью ручной проверки результатов.
Стек
Python 3.12, FastAPI, SQLAlchemy 2.0, PostgreSQL 16, Docker Compose. ML-часть строится с нуля: локальный инференс (vLLM / Ollama / llama.cpp), constrained decoding, эмбеддинги, pgvector, fine-tune (peft / unsloth).
Требования
- Коммерческий опыт на Python — от 1 года: продакшен-код, работа в команде и с чужой кодовой базой.
- Уверенный Python: ООП, структуры данных, чистый читаемый код.
- Портфолио с проектами на LLM/ML — собственные или рабочие, с возможностью показать (GitHub) и разобрать.
- Практический опыт с LLM: запуск моделей, написание промптов под задачи, RAG, работа с эмбеддингами.
- Git, Docker. Английский на чтение документации.
Будет преимуществом
- Опыт fine-tune (LoRA/QLoRA) или дообучения эмбеддеров.
- Локальный запуск моделей: Ollama / llama.cpp / vLLM.
- SQL, опыт с PostgreSQL.
- Понимание основ ML: метрики качества, train/val, переобучение.
- Обработка текста и таблиц (pandas, парсинг документов).
- ML-соревнования (Kaggle и т. п.).