Старший инженер по машинному обучению, синтетические данные и понимание документов
Бангалор, Индия (гибридный формат)
Присоединяйтесь к ABBYY и станьте частью команды, которая ценит ваш уникальный стиль работы. С гибкими вариантами работы, поддерживающей командой и вознаграждениями, отражающими вашу ценность, вы сможете сосредоточиться на самом важном — развитии себя, одновременно способствуя нашему росту.
Наша приверженность уважению, прозрачности и простоте означает, что вы можете доверять нам всегда выбирать правильный путь.
Будучи надежным партнером в области специализированного ИИ и интеллектуальной автоматизации, мы решаем сложнейшие задачи для наших корпоративных клиентов и используем их информацию для трансформации их бизнеса. Более 10 000 клиентов доверяют ABBYY, включая многих из списка Fortune 500. Вы будете работать над дальнейшим развитием портфеля, в котором уже есть такие клиенты, как DHL, Johnson & Johnson, FDA, DMV, PwC, KeyBank, Spotify и H&R BLOCK.
О роли
Мы ищем старшего инженера по машинному обучению — синтетические данные и понимание документов, который возьмет на себя ответственность за направление генерации синтетических данных в команде Document AI Data компании ABBYY.
Эта роль сосредоточена на создании генеративных конвейеров, которые производят высококачественные, разнообразные и реалистичные синтетические обучающие данные в масштабах. Вы будете обеспечивать, чтобы синтетические данные существенно улучшали производительность моделей на последующих этапах, поддерживая сильное соответствие реальным структурам документов, форматам и статистическим свойствам.
Это идеальная роль для инженеров, которые сочетают глубокие знания генеративного моделирования с тщательной оценкой качества данных и навыками инженерии производства.
Основные обязанности
Техническая разработка и инновации
- Проектировать и реализовывать конвейеры, анализирующие реальные документы для информирования генерации синтетических данных с высокой точностью
- Создавать генеративные системы, способные производить документы в различных форматах, макетах и доменах
- Разрабатывать оценочные рамки для обеспечения сохранения распределительной точности и разнообразия синтетических данных
- Исследовать и применять методы генеративного моделирования, подходящие для обучения Document AI
- Выявлять и устранять проблемы качества, чтобы синтетические данные были эффективны для обучения моделей
- Сотрудничать с командами моделирования для измерения влияния синтетических данных на производительность моделей
Владение проектом и лидерство
- Полностью отвечать за направление генерации синтетических данных — от архитектуры до проверки качества
- Принимать архитектурные решения, балансируя качество, разнообразие, масштаб и экономическую эффективность
- Определять и поддерживать метрики качества данных и панели мониторинга генерации
- Тесно сотрудничать с командами аннотации для обеспечения совместимости с последующими конвейерами
- Вносить вклад в планирование дорожной карты вместе с руководством уровня Principal
Инфраструктура и масштабирование
- Создавать масштабируемые конвейеры, способные генерировать миллионы синтетических обучающих примеров
- Реализовывать механизмы постобработки, фильтрации и валидации для удаления низкокачественных результатов
- Проектировать экономичные рабочие процессы, балансирующие вычислительные ресурсы, качество и пропускную способность
- Разрабатывать системы мониторинга для обнаружения сдвигов распределения или ухудшения качества с течением времени
- Сотрудничать с платформенными командами по вопросам оркестрации вычислений, хранения и планирования
Квалификации
Образование и опыт
- Магистр или кандидат наук в области информатики, инженерии, математики или смежных областях
- Более 5 лет опыта в области машинного обучения / ИИ с фокусом на:
- Генеративные модели
- Модели зрения и языка (Vision-Language Models, VLMs)
- Системы синтетических данных
- Подтвержденный опыт создания и оценки конвейеров синтетических данных для обучения моделей
- Сильные знания в оценке качества данных и статистическом анализе
Техническая экспертиза
- Глубокие знания моделей зрения и языка и понимания документов (макет, структура, семантика)
- Хорошее знание генеративного моделирования для структурированных и полуструктурированных данных
- Понимание факторов, делающих синтетические данные ценными:
- Сохранение распределения
- Разнообразие
- Реалистичные шумовые паттерны
- Покрытие домена
- Сильные навыки программирования на Python с опытом работы в PyTorch или аналогичных фреймворках
- Опыт оценки качества данных с помощью автоматизированных метрик и влияния на модели
- Знакомство с масштабными конвейерами данных, облачными средами и отслеживанием экспериментов
Лидерство и коммуникация
- Подтвержденная способность самостоятельно вести сложные технические направления
- Сильное сотрудничество с командами данных, моделирования и платформы
- Умение четко объяснять компромиссы качества данных и генерации
- Ориентация на данные с вниманием к пробелам в покрытии и сигналам качества
Некоторые из наших локальных преимуществ:
- Комплексное медицинское, страхование от несчастных случаев и страхование жизни
- Еженедельные сессии по поддержке физического и психического здоровья
- Щедрая политика оплачиваемого отпуска
Присоединившись к ABBYY, вы:
Полюбите, как вы работаете
- Мы предлагаем удаленную и гибридную работу, подходящую для любого образа жизни.
- Мы используем гибкий график в большинстве команд, чтобы вы могли найти свое собственное определение баланса.
- Поощряя культуру дарения, мы предоставляем два оплачиваемых дня волонтерства каждый год, чтобы вы могли уделить время важным для вас делам.
- Чтобы ваша семья была под заботой, мы предлагаем оплачиваемый отпуск по уходу за ребенком во всех наших локациях.
Полюбите, с кем вы работаете
- Мы — глобальная команда из более чем 600 коллег, работающих в 15 странах на четырех континентах.
- Наш коллектив представляет более 30 национальностей, отражая многообразие мира.
- Инновации и совершенство — наша суть. Наши команды обладают экспертизой, которая принесла ABBYY более 140 патентов на технологии.
- Нас ведут ценности уважения, прозрачности и простоты.
- «Командная среда» входит в тройку самых высоко оцениваемых факторов вовлеченности во всех наших отделах.
Полюбите то, над чем вы работаете
- Мы — компания с более чем 35-летним опытом на рынке технологий;
- Более 10 000 клиентов доверяют ABBYY, включая многих из списка Fortune 500, таких как DHL, Johnson & Johnson, FDA, DMV, PwC, KeyBank, Spotify и H&R BLOCK;
- Мы модернизировали рынок захвата данных, создав первую платформу IDP с низким кодом / без кода;
- Наши технологии машинного обучения, обработки естественного языка, компьютерного зрения и маркетплейс, построенный на ИИ, могут преобразовать любой документ в любом процессе;
- Ведущие аналитические компании признают лидерство ABBYY на рынке, включая Gartner, Everest PEAK Matrix ® Assessment, ISG Intelligent Automation Lens и NelsonHall, среди прочих.
ABBYY является работодателем, предоставляющим равные возможности, который ценит силу, которую приносит разнообразие в рабочее пространство. Чтобы узнать больше о нашей приверженности разнообразию и инклюзии, посетите раздел карьеры на нашем сайте.
.