У нас вы можете посмотреть бесплатно Optimizing GPT-OSS on NVIDIA DGX Spark: Getting the Most Out of Your Spark или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Check out the related blog post at: https://lmsys.org/blog/2025-11-03-gpt... LMRouter: https://github.com/LMRouter/lmrouter In this video, we walk you through how to run GPT-OSS 20B and 120B locally on the NVIDIA DGX Spark using SGLang, achieving state-of-the-art performance — up to 70 tokens/s on 20B and 50 tokens/s on 120B. 🚀 You’ll see exactly how to: Set up your Spark environment and required tiktoken encodings Launch SGLang Docker containers optimized for DGX Spark Benchmark token generation speed and GPU utilization Connect Open WebUI for an interactive chatbot experience Use LMRouter to bridge OpenAI-style and Anthropic-style APIs Run Claude Code entirely locally through SGLang + LMRouter This is a full walkthrough, from setup to demo, showing how you can turn your DGX Spark into a self-hosted LLM powerhouse capable of serving multi-billion-parameter models in real time. CHAPTERS 0:00 - Intro 0:56 - Launch SGLang with GPT-OSS 2:46 - Send request to and benchmark SGLang 3:37 - Use Open WebUI with SGLang 5:33 - Use Claude Code with LMRouter and SGLang Credits: Written, directed, narrated, and edited by Jerry Zhou (@yvbbrjdr, https://x.com/yvbbrjdr) #NVIDIA #DGXSpark #Blackwell #SGLang #AIInference #LocalAI #LLMServing #SparkSomethingBig