У нас вы можете посмотреть бесплатно [vLLM Office Hours #29] Scaling MoE with llm-d или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
In this session, we focused on scaling Mixture-of-Experts (MoE) models with llm-d. Robert Shaw and Tyler Smith, vLLM core committers from Red Hat, and Clayton Coleman, Distinguished Engineer from Google, walked through their work on llm-d and shared key insights on distributed LLM inference. They covered: -How llm-d enables wide expert-parallel (EP) MoE deployments with vLLM -How to leverage prefill/decode (P/D) disaggregation for more efficient cluster-scale inference -Early insights and lessons learned from real-world, multi-node MoE deployments Additionally, we shared what's new in vLLM v0.9.2 and v.0.10.0. Enjoy! Time Stamps: 00:00 Bi-weekly vLLM project update (v0.9.2 and v0.10.0) 14:30 Scaling MoE models with llm-d 55:40 Q&A + Discussion Session Slides: https://docs.google.com/presentation/... llm-d GitHub: https://github.com/llm-d/llm-d Register for future vLLM Office Hours: https://red.ht/office-hours