Совкомбанк Технологии – IT-компания финансовой Группы «Совкомбанк», топ-3 работодателей по версии Хабр Карьера.
У нас работает более 7000 специалистов. Мы развиваем экосистему карты рассрочки Халва, приложение Совкомбанк Инвестиции и собственные корпоративные продукты, проводим масштабные интеграции сервисов и компаний.
Присоединяйся к команде – давай вместе прокачивать финтех!
ПРОЕКТ: Участие в разработке и внедрении масштабируемой, отказоустойчивой ML-платформы для обработки речи и семантического анализа, включающей автоматическое распознавание речи (ASR), синтез речи (TTS), языковые модели (LLM), а также RAG-решения для генерации и извлечения информации. Проект ориентирован на production-эксплуатацию в высоконагруженной среде с низкой задержкой, включая интеграцию с VoIP-платформами и автоматизацию бизнес-процессов.
СТЕК:
- ML/AI: PyTorch, Transformers, LLM (включая fine-tuning), RAG, CTC, RNNT, кластеризация, векторные БД (Qdrant), графовые БД.
- Инференс и оптимизация: NVIDIA Triton Inference Server (BLS, TensorRT), ONNX, CUDA.
- Оптимизация производительности ML Ops: Airflow, Kubeflow, Grafana, CI/CD для ML.
- Интеграции и коммуникации: gRPC, Kafka, Redis, PostgreSQL (с оптимизацией запросов), WebRTC, SIP.
- Backend и автоматизация: Golang, Java, Python (asyncio, multiprocessing), FastAPI.
- Инфраструктура: Docker, Kubernetes, микросервисная архитектура, брокеры сообщений.
- Дополнительно: n8n (оркестрация бизнес-процессов), векторные и графовые БД (например, Neo4j), VoIP-интеграции.
Обязанности:
- Разработка, дообучение и оптимизация ML-моделей: LLM, ASR (CTC, RNNT), TTS, RAG-систем на основе трансформеров.
- Развертывание и настройка высокопроизводительного инференса с использованием Triton Inference Server и TensorRT.
- Построение и поддержка ML-пайплайнов: ETL, препроцессинг, обучение, валидация, A/B тестирование.
- Обеспечение CI/CD в ML: автоматизация тестирования, версионирование моделей, мониторинг дрейфа данных и качества.
- Интеграция ML-моделей в production-системы через gRPC, Kafka, REST (FastAPI) Разработка запросов к PostgreSQL, работа с векторными (Qdrant) и графовыми БД для семантического поиска и связей.
- Построение отказоустойчивых микросервисных систем: контейнеризация (Docker), оркестрация (Kubernetes), масштабирование.
- Интеграция с VoIP-платформами, обработка аудиопотоков в реальном времени.
- Автоматизация бизнес-процессов с использованием n8n.
- Наставничество, декомпозиция сложных задач, код-ревью, участие в R&D и внедрении новых технологий.
- Обеспечение production-ready решений с акцентом на производительность, масштабируемость и отказоустойчивость.
Требования: - Глубокие знания в ML/AI, включая обучение и дообучение моделей (LLM, RAG, трансформеры, кластеризация).
- Опыт работы с Triton Inference Server (развертывание, оптимизация, BLS, TensorRT).
- Практика в ML Ops: CI/CD для ML, мониторинг моделей, управление пайплайнами (Airflow, Kubeflow, Grafana).
- Умение развертывать и дообучать ASR, STT, TTS модели (например CTC, RNNT).
- Навыки работы с GRPC, Kafka, Redis, PostgreSQL (включая оптимизацию запросов).
- Программирование: Golang, Java, асинхронный/многопоточный Python (asyncio, multiprocessing).
- Глубокие знания библиотек Numpy, Pandas, sklearn, FastAPi.
- Глубокие знания Pytorch.
Условия: