У нас вы можете посмотреть бесплатно PCIe Express corrected errors handling (RAS) solution implementation considerations или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Anil Agrawal, Hardware Systems Engineer, Meta Carlos Fernandez, Presenter, Meta Meta's AI/ML Training Clusters are built using a large number of PCIe devices including, GPUs, NICs, NVMe drives, and PCIe switches. It is important to implement a robust fault handling (RAS) solution within this PCIe device hierarchy to ensure target uptime, availability, and serviceability objectives. A high rate of PCIe correctable errors is expected. In this presentation, we would like to share our learnings and an innovative solution we developed to manage such large scale PCIe correctable errors within Meta AI/ML training clusters.