Стек технологий
MLOps
Docker, Kubernetes и GitLab CI/CD, MLflow и NVIDIA Triton Inference Server, Python (pyproject, Poetry, environment, Makefile, линтеры, форматтеры), Airflow, gRPC, Hadoop (HDFS, Hive, YARN), Kafka, Spark, Airflow, ClickHouse, Vertica, PostgreSQL, S3 (CEPH), Superset, DataHub, Jira, Planner, Confluence.
Data Engineer
Python, Airflow, ClickHouse, PostgreSQL, Vertica, Kafka, S3, Spark, Hadoop, FastAPI, Flask, Kubernetes, Helm, Superset, Prometheus, Grafana, GitLab, Jira, Confluence.
Data Scientist
Python, SQL, Machine Learning, NLP, LLM, SmolAgents, vLLM, SGLang, Triton Server, TensorRT-LLM.
- Vertica, PostgreSQL, Clickhouse.
- Label Studio.
- PyTorch + Accelerate.
- Triton Server в K8s.
- QDrant, Elasticsearch, LangChain.
Ожидания от кандидата
MLOps
Мы ожидаем, что вы владеете знаниями:
- DevOps: понимание Docker, Kubernetes и GitLab CI/CD.
- MLOps: общее понимание терминологии, концепций и составляющих архитектуры ML-инфраструктуры; опыт разворачивания MLflow и NVIDIA Triton Inference Server.
- Python: real-time-сервисы и асинхронное программирование, юнит-тестирование и окружение для разработки (pyproject, Poetry, environment, Makefile, линтеры, форматтеры).
- Airflow, gRPC.
А также:
- Опыт: в data governance или data stewardship от 3 лет.
- SQL: уверенное знание: написание проверок качества, профилирование, поиск аномалий.
- Python: базовое владение для автоматизации и DQ-скриптов.
- Архитектура данных: понимание архитектуры и моделей данных.
- Инструменты: опыт работы с каталогами данных/бизнес-глоссариями (OpenMetadata, DataHub) и инструментами DQ (Great Expectations, Deequ и другие).
- Регуляторика: базовые знания PCI DSS, 152-ФЗ, контроль доступа и маскирование.
Будет плюсом:
- Опыт построения промышленной ML-инфраструктуры (получение фичей, сервинг моделей, настройка Observability).
- Базовое знание Hadoop (Spark, Yarn, Hive, HDFS).
- Умение оптимизировать код для real-time-работы.
- Опыт работы с GPU.
Data Engineer
Для нас важно, что вы:
- Опыт: более 3 лет работаете на языке Python; более 2 лет работаете дата-инженером.
- Технологии: знаете Apache Spark (PySpark), понимаете принципы работы СУБД и умеете оптимизировать запросы.
- Базы данных: знаете, как работать с ClickHouse, PostgreSQL, Vertica.
- Архитектура: понимаете принципы работы хранилища данных.
- Orchestration: умеете писать компоненты Airflow.
- Разработка: поддерживаете порядок в коде, Git и документации; тестируете свои решения при помощи pytest.
- Навыки: умеете и любите быстро учиться, сразу применяете новые знания, можете самостоятельно находить ответы на сложные вопросы.
- Образование: имеете высшее техническое образование.
Будет плюсом:
- Инструменты: умение работать с Kubernetes, Prometheus, Superset, Helm, FastAPI, Flask.
- Коммуникации: опыт общения с аналитиками и дата-сайентистами.
Data Scientist
Ждем от вас:
- Опыт: работа в кредитном скоринге от 2 лет.
- Данные: умение работать с данными (анализ, очистка, подготовка, отбор и создание признаков), навыки написания сложных SQL-запросов.
- Теория: знание теории вероятностей, математической статистики и методов машинного обучения; знание типовых пайплайнов для построения скоринговых моделей.
- Инструменты: опыт работы с пакетами для анализа данных.
- Валидация: общие представления о валидации и способах построения мониторинга моделей.
Будет плюсом:
- Опыт с фреймворками для агентских систем (SmolAgents).
- Опыт работы с Triton Server и TensorRT-LLM.
Формат работы
Удалёнка, гибрид, офис — на ваш выбор.
Есть офисы в Москве, Санкт-Петербурге и Иннополисе.
Преимущества работы в Ozon
- Разработка и инновации
- Мощные ноутбуки под ваши задачи
- Забота о здоровье
- Поддержка в различных жизненных ситуациях
- Поощрение инициативы
- Страховка для поездок