Python-разработчик / Data Engineer (Web Scraping, Scrapy)
Поддержка, развитие и стабильную работа нескольких Scrapy-проектов, предназначенных для обхода карточек товаров и парсинга данных в различные БД.
Задачи
Поддержка существующих Scrapy-проектов
- Анализ и исправление ошибок в пауках (spiders)
- Адаптация парсеров при изменении структуры сайтов
- Рефакторинг кода, устранение технического долга
- Обновление зависимостей и версий Python/Scrapy
Разработка и расширение функциональности
- Расширение пайплайнов обработки данных
- Унификация и переиспользование общих компонентов между проектами
Работа с данными и БД
- Запись данных парсинга
- Контроль целостности и качества данных
- Обработка дубликатов, апдейты карточек
Мониторинг и эксплуатация
- Отслеживание статуса выполнения парсеров
- Анализ логов, метрик, ошибок
- Настройка алертов при падениях / деградации качества
- Поддержка непрерывного режима работы (cron / очереди / расписания)
Инфраструктура и автоматизация (по уровню)
- Запуск парсеров в Linux-среде / Docker
- Интеграция с прокси, VPN, user-agents
- Работа с CI/CD (минимум — деплой и автозапуск)
Обязательные технические требования
Python / Scrapy
- Уверенное знание Python 3
- Глубокое понимание Scrapy:
- spiders, items, pipelines, middlewares
- signals, extensions
- throttling, retries, AutoThrottle
Web scraping
- Опыт парсинга динамических сайтов
- Работа с:
- cookies, headers, sessions
- пагинацией, фильтрами, вариациями товаров
- Понимание антибот-защиты:
- rate limiting
- fingerprinting
- captcha (хотя бы на уровне обхода / интеграции сервисов)
Базы данных
- Опыт работы минимум с одной SQL БД (PostgreSQL / MySQL)
- Понимание схем данных для товарных карточек
- Опыт батчевой записи и апдейтов
Linux / эксплуатация
- Уверенная работа в Linux
- Работа с:
- cron / systemd
- логами
- виртуальными окружениями
- Git (branching, PR, code review)
Специалист должен уметь:
- Самостоятельно разбираться в чужом Scrapy-коде
- Понимать, почему «парсер стал собирать меньше данных»
- Находить причину падений без пошаговых инструкций
- Предлагать улучшения архитектуры и мониторинга
Требования:
Условия: - Удаленная работа
- Работа по трекеру - 500 р./час.
- Оформление по договору с самозанятыми.
- Объем работы необходимо выполнять еженедельно минимум 14 часов
Для отбора на должность от вас необходимо: 1) Информация в каких проектах участвовали. 2) Выполнить оплачиваемое тестовое задание (500р/час)