Больше 15 лет Яндекс строит собственные дата-центры, совместно с партнёрами создаёт и дорабатывает оборудование для них: серверы, полки для устройств PCIe, дисковые полки, устройства для резервирования питания. За всеми этими устройствами нужно следить, нужно удалённо управлять ими и собирать метрики.
Для этих целей уже много лет мы используем OpenBMC — опенсорсный Embedded Linux для контроллера серверной материнской платы. С его помощью можно удалённо узнать всё о состоянии сервера, получить доступ к ОС, а также управлять сотнями тысяч серверов. А ещё всё — вообще всё — можно автоматизировать.
Разработка архитектуры программно-аппаратных решений
Вы будете проектировать архитектуру для новых устройств дата-центров, учитывая нюансы эксплуатации, управления и тестирования. Важно закладывать возможность измерения различных параметров и обеспечивать design for manufacturability.
Поиск и решение проблем на стыке software и hardware
Предстоит диагностировать сложные проблемы, используя все инструменты дебага: от дебажных принтов и GDB до работы с осциллографом и анализа принципиальных схем вместе со схемотехниками.
Взаимодействие с опенсорс-сообществом
Вы будете регулярно синхронизировать наш форк OpenBMC с upstream, взаимодействовать с сообществом и мейнтейнерами проекта, участвовать в развитии экосистемы.
Развитие системы управления оборудованием
Предстоит работать над улучшением существующих и созданием новых компонентов для удалённого управления серверами, мониторинга их состояния и автоматизации операций в масштабах сотен тысяч устройств.