Разработчик на Python в майнинг данных
Каждый день миллионы пользователей ищут, куда пойти, как получить услугу или добраться до нужного места. Мы помогаем им принимать обоснованные решения, предоставляя актуальную и достоверную информацию о компаниях по всему миру.
Справочник — платформа, которая собирает, верифицирует и анализирует данные об организациях. Наша система ежедневно обрабатывает миллионы сигналов: пользовательский фидбек, обновления с сайтов, коррекции от владельцев бизнесов. Мы создаём решения, которые масштабируются на новые рынки и языки.
Наши проекты
- Автоматический перевод контента с использованием современных LLM (YandexGPT и др.) для поддержки мультиязычных пользователей
- Парсинг данных на Python — платформа для сбора информации об организациях из открытых источников
- Изолированная среда выполнения парсеров — безопасный рантайм для пользовательского кода с использованием внутреннего аналога Docker
- Унификация данных — алгоритмы нормализации адресов, графиков работы и других атрибутов организаций
- Автоматизация обновлений для сетевых компаний (рестораны, магазины) с учётом их филиалов и особенностей
Стек технологий
- Backend: C++ (производительность), Python (парсинг), YTsaurus, YDB Topics, PostgreSQL
- ML: YandexGPT 5 Pro
- Инфраструктура: Docker, Chrome DevTools (для анализа веб-страниц)
Мы предлагаем
- Работу с Big Data (сотни миллионов записей) и передовыми LLM
- Возможность влиять на архитектуру высоконагруженных систем
- Гибкий график и опцию удалённой работы
- Компенсацию оплаты обучения (курсы, конференции, сертификации)
Почему это стоит внимания
- Внедрение LLM в промышленные пайплайны (автопереводы, разметка данных)
- Разработка масштабируемой изолированной среды для выполнения кода
- Масштабирование продукта на международные рынки с помощью YTsaurus и AirFlow-подобных систем
- Участие в проектировании распределённых систем для обработки данных
Если вы хотите работать на стыке Python, C++ и ML, решая задачи парсинга, NLP и Big Data, присоединяйтесь. Здесь ваши навыки превратятся в технологии, которыми каждый день пользуются миллионы людей.
Какие задачи вас ждут
- Развитие парсинг-платформы: Вы будете оптимизировать архитектуру для одновременной работы сотен парсеров, реализовывать изолированную среду выполнения парсеров и повышать эффективность взаимодействия с PostgreSQL.
- Интеграция LLM и NLP: Понадобится создавать пайплайн автоматического перевода контента и разметки данных с помощью языковых моделей, а также адаптировать и настраивать модели (YandexGPT и др.) под бизнес-задачи.
- Масштабирование системы: Вам предстоит адаптировать платформу для новых стран и языков, организовывать обработку данных через YTsaurus MapReduce и внутренний аналог AirFlow.
- Оптимизация алгоритмов: Ещё вы станете разрабатывать методы сравнения и нормализации атрибутов организаций и ускорять критичные компоненты системы на C++.
Мы ждем, что вы
- Работали с C++ и Python (уровень middle+)
- Глубоко понимаете алгоритмы, структуры данных и SQL
- Умеете писать чистый, тестируемый код с документацией
Будет плюсом, если вы
- Работали с NLP, трансформерными моделями, MapReduce
- Знаете веб-фреймворки: Flask, FastAPI, Django
- Умеете работать с Chrome DevTools для отладки парсеров
Что мы предлагаем
- Здоровье
- Рост и развитие
- Спорт
- И ещё
Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.
А также:
- психотерапия в офисе или онлайн-сервисах;
- лазерная коррекция зрения через год работы;
- ведение беременности и роды — через два года.
В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.
Также мы оплачиваем участие в профильных конференциях — как в качестве спикера, так и в качестве участника.
Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов.
Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей.
Можете заниматься самостоятельно, а можете с корпоративным тренером.
А также скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.
Спортивный клуб Яндекса
В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях.
Вы сможете присоединиться к существующим командам или собрать свою.
Гибкий график
У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде.
Жилищные займы
Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.
Всё для детей
Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.