У нас вы можете посмотреть бесплатно Хотите запустить ИИ локально? Пожалуйста, сначала разберитесь с этим. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Бесплатный PDF: Сравнительная таблица + контрольный список безопасности + оборудование https://danieljindoo.substack.com/ Присоединяйтесь к закрытому сообществу: / discord Ваша вторая видеокарта не ускорит локальный ИИ, если вы не выберете подходящее программное обеспечение. Большинство инструментов используют конвейерный параллелизм (эстафетное гонка), что означает, что одна видеокарта простаивает, пока другая работает. Лишь немногие поддерживают тензорный параллелизм (командный подъем), который действительно ускоряет процесс. В этом видео я сравниваю 5 инструментов для локального вывода ИИ: Ollama, LM Studio, llama.cpp, vLLM и KoboldCpp. Я подробно рассказываю, как каждый из них обрабатывает многопроцессорные конфигурации, уязвимости безопасности и многопользовательскую параллельность — чтобы вы могли выбрать подходящий инструмент, прежде чем покупать оборудование, которое вам не нужно. ⏱️ Разделы: 00:00 Ваша вторая видеокарта может ничего не делать 01:05 Знакомство с 5 инструментами (и для чего каждый из них предназначен) 03:10 Где большинство людей обжигаются при выборе инструмента 03:27 Параллелизм конвейера против параллелизма тензоров: объяснение 05:08 Как параллелизм тензоров на самом деле ускоряет работу 06:12 Мосты NVLink: скрытая стоимость оборудования 06:52 Трюк Vulkan в llama.cpp (смесь NVIDIA + AMD) 07:08 Режим разделения строк: новое улучшение скорости в llama.cpp 07:40 Уязвимости безопасности в каждом инструменте 08:00 Проблема открытого сервера Ollama 08:52 Сетевая уязвимость по умолчанию в KoboldCpp 09:08 Уязвимость vLLM с рейтингом 9,8/10 09:33 Компромисс с закрытым исходным кодом LM Studio 09:54 llama.cpp Безопасность: максимум контроля, максимум настройки 10:07 3 правила для защиты вашего локального сервера ИИ 10:40 Многопользовательская параллельность: кто лучше всего с ней справляется 11:30 Объяснение PagedAttention в vLLM (аналогия с парковкой) 12:28 Окончательная рекомендация: какой инструмент для какого случая использования 14:00 Mac с Apple Silicon: что выбрать 14:24 Главный вывод: программное обеспечение определяет ваше оборудование #LocalAI #Ollama #llama.cpp