У нас вы можете посмотреть бесплатно NVIDIA DGX Spark против 4× RTX 5090: «Золотой куб» за 4000 долларов против монстра за 16 тысяч до... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Новый DGX Spark от NVIDIA — это миниатюрный и бесшумный «суперкомпьютер ИИ» стоимостью 4000 долларов с 128 ГБ унифицированной памяти и 20-ядерным процессором ARM. Но действительно ли он лучше для LLM-инференса, чем сборка на заказ с четырьмя видеокартами RTX 5090 (128 ГБ общей видеопамяти)? В этом видео я сравниваю их, используя llama.cpp, на разных моделях (Qwen-like, Magistral, GPT-OSS 120B, GLM-Air), с одинаковой ОС (Ubuntu 24.04 LTS), одинаковой сборкой llama.cpp и соответствующей видеопамятью (принудительно использующей 4 видеокарты Jarvis). Я также расскажу о энергопотреблении, нагреве/шуме, пропускной способности памяти, цене и о том, кому что лучше. TL;DR Скорость (токенов/с): 4x5090 стабильно примерно в 2–3 раза быстрее (а иногда и больше), чем DGX Spark для вывода. Пропускная способность: 5090 VRAM ~1792 ГБ/с против Spark ~273 ГБ/с → огромное преимущество для вывода. Ёмкость: 128 ГБ унифицированной памяти Spark подходит для очень больших моделей MoE; два устройства могут быть объединены в цепочку до ~400 байт параметров (Q4). Энергопотребление/Шум: Spark потребляет всего 170–240 Вт и работает практически бесшумно; система из 4x5090 может превышать 2500 Вт. Стоимость: Spark — 4000 долларов в комплекте; полноценная рабочая станция из 4x5090 обойдётся в 15–17000 долларов. Вердикт: Spark отлично подходит для настольных, экономичных и ширококонтекстных рабочих процессов MoE. Что касается скорости вывода, то здесь 4×5090 — лучший выбор. Бенчмарки (основные результаты) Qwen-class (65k ctx, UDQ4KXL): Spark ~70 ток/с против 4×5090 ~175–200 ток/с Magistral (плотная загрузка, UDQ6KXL): Spark ~10 ток/с против 4×5090 ~70 ток/с GPT-OSS 120B (UDQ4KXL): Spark ~44 ток/с против 4×5090 ~190 ток/с Быстрая обработка часто в 3–4 раза быстрее на 4×5090 Тестовая конфигурация DGX Spark: GB10 Superchip, 128 ГБ унифицированной памяти, Ubuntu 24.04 LTS, предустановленные CUDA/драйверы Jarvis (4×5090): Intel Sapphire Rapids ES (112 потоков), 512 ГБ DDR5, Ubuntu 24.04 LTS Фреймворк: llama.cpp (одинаковая сборка сервера на обоих компьютерах) Модели: GLM-Air, GPT-OSS 120B, Magistral (плотная), Qwen-like (MoE) — различные варианты квантования UDQ4K/UDQ6K Метод: Идентичные подсказки (текст Project Gutenberg), совпадающая видеопамять (CUDA_VISIBLE_DEVICES=0,1,2,3) Если вам понравилось это подробное исследование, пишите вопросы и расскажите, какой бы вы купили. Подпишитесь, чтобы получать больше информации о тестировании оборудования для ИИ в реальных условиях! Главы ниже: 00:00 Hook — Gold Cube за 4000 долларов против 4x5090 00:28 Что мы сравниваем (DGX Spark против кастомной сборки 5090) 00:56 Основы DGX Spark: GB10, 20-ядерный ARM, 128 ГБ унифицированной памяти, 170–240 Вт 01:59 Характеристики RTX 5090 и что подразумевает сборка с 4 видеокартами 03:29 Почему пропускная способность важна для вывода (1792 против 273 ГБ/с) 04:39 Энергопотребление и шум: настольный Spark против энергоёмкой сборки 05:19 Разбивка по ценам: сборка за 4000 долларов против 15–17000 долларов 06:31 План бенчмарка: llama.cpp, та же ОС/сборка, те же модели 07:02 Размер и акустика DGX Spark (практическое занятие) 08:44 Spark — полноценная Ubuntu-машина (драйверы/CUDA предустановлены) 12:38 Знакомство с Jarvis (сервер 4×5090) + идентичные папки с моделями 14:28 Метод тестирования: параллельные терминалы и веб-интерфейс 17:13 Запуск № 1 — Qwen-class (65k ctx): результаты и токены/с 23:31 Запуск № 2 — Magistral (плотный): объяснение большого разрыва 25:41 Запуск № 3 — GPT-OSS 120B: скорость подсказок и генерации 30:14 Контекст растёт, скорость падает: что мы наблюдаем 30:19 Запуск № 4 — GLM-Air (100B+): время загрузки и пропускная способность 33:31 Подсказки против генерации: почему плотность MoE влияет на скорость 34:03 Итак… стоит ли Spark того? Тонкий взгляд 35:54 Кому стоит покупать Spark (а кому нет) 37:10 Окончательный вердикт и призыв к действию