Обязанности: Разработка и внедрение локального конвейера обработки документов для автоматического распознавания, классификации и извлечения ключевых атрибутов (дата, номер, контрагент, ИНН и др.) из скан-образов документов (счета-фактуры, договоры, акты, ТТН и др.) с последующей записью данных в БД.
Требования: Технические компетенции
Опыт работы с моделями глубокого обучения для NLP:
-
применение предобученных эмбеддингов (BERT) для классификации документов;
-
практика настройки и дообучения моделей NER (Named Entity Recognition) для извлечения атрибутов (дата, сумма, ИНН, контрагенты и т.д.).
Навыки работы с OCR-системами - опыт интеграции и пост-обработки результатов Tesseract.
Умение строить конвейеры обработки данных от скана → OCR → очистка текста → векторизация → классификация → извлечение атрибутов → запись в БД.
Понимание принципов локальной развертки: работа без доступа в интернет, изоляция через Docker.
Практический опыт
Реализация проектов по автоматизации документооборота.
Умение работать с небольшими выборками данных (50–200 размеченных документов) и добиваться высокой точности (>85%) без больших объемов данных.
Опыт интеграции ML-моделей с корпоративными системами через API.
Будет плюсом
- Способность переводить бизнес-задачи в технические решения.
- Умение выявлять и исправлять артефакты OCR, опечатки, вариативность формулировок.
- Навыки документирования моделей и процессов для передачи знаний и сопровождения.
Условия: - Оформление по ТК РФ
- Работа в г. Москва, г. Щербинка
- Система премирования на основе KPI
- Возможен гибридный/удаленный график работы по результатам испытательного срока.
- Современные проекты, интересные с профессиональной точки зрения задачи.
- Возможность профессионального и карьерного роста.