Описание вакансии
На этой позиции тебе предстоит:
- Distributed Train :
- Поддержка инфраструктуры распределённого обучения (Jupyter, Triton, CUDA, NCCL);
- Работа с Kubernetes и Docker-контейнерами;
- Диагностика ошибок в пайплайнах и окружениях;
- Взаимодействие с командами разработки при возникновении инцидентов.
- Evolution Compute (облачная IaaS-инфраструктура):
- Диагностика и устранение инцидентов на базе OpenStack;
- Поддержка виртуальных машин, сетей и сопутствующих сервисов;
- Проведение регламентных работ и участие в модернизации платформы;
- Работа с системами мониторинга и SQL-запросами.
- Облачная платформа и Личный кабинет:
- Поддержка пользовательского интерфейса и API;
- Анализ HAR-логов, проблем с авторизацией, доступами и биллингом;
- Работа с запросами пользователей, техническая диагностика ошибок UI/UX;
- Взаимодействие с командами backend/frontend-разработки.
Что мы ждем от кандидата:
- Distributed Train:
- Знание Linux на уровне администратора;
- Опыт работы с Kubernetes и Docker;
- SQL (PostgreSQL);
- Опционально: Python, Bash.
- Evolution Compute:
- Опыт или желание работать с OpenStack;
- Linux (сетевые подсистемы, виртуализация);
- SQL;
- Опционально: Bash, опыт работы с мониторингом (Zabbix, Grafana).
- Личный кабинет / Облачная платформа:
- SQL, понимание REST API;
- Навыки анализа HAR-логов, работы с браузерной консолью;
- Владение Git;
- Linux на уровне пользователя или администратора;
- Опционально: Bash.
На всех трех направлениях - готовность работать в графике 2-2-2 (дневные и ночные смены)