У нас вы можете посмотреть бесплатно От узких мест графического процессора к плавной работе чата: экономически эффективные архитектуры... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Доклад на конференции Core C++ 2025, Тель-Авив. Что нужно для обслуживания чат-бота с миллиардами параметров в режиме реального времени — без чрезмерного расхода бюджета дата-центра? Большие языковые модели (LLM) лежат в основе следующего поколения приложений ИИ, но их эффективное масштабирование сопряжено с уникальными проблемами производительности и стоимости. В этом докладе представлен системный анализ основных узких мест в выводе LLM, от ограничений памяти GPU до межсетевого взаимодействия, а также архитектурные инновации, направленные на их решение. Мы рассмотрим три ключевых метода: разгрузку KV-кэша для снижения нагрузки на GPU, дезагрегацию предварительного заполнения-декодирования для повышения пропускной способности и спекулятивное декодирование для ускорения генерации в механизмах вывода, таких как vLLM и SGLang. Мы также рассмотрим компромиссы между пользовательским опытом и эффективностью системы, такие как задержка и использование оборудования. Хотя эти принципы повышения производительности часто реализуются на Python и CUDA, они: учет иерархии памяти, оптимизация перемещения данных и балансировка пропускной способности и задержки, непосредственно актуальны для разработчиков на C++, создающих высокопроизводительные системы. ==== Эшкар Хиллель Эшкар Хиллель возглавляет исследования в области ИИ в Pliops, разрабатывая решения для хранения данных для таких новых рабочих нагрузок, как генеративный ИИ, рекомендательные системы глубокого обучения и системы обучения в целом. Эшкар специализируется на теории и практике распределенных систем и параллельных вычислений. До прихода в Pliops Эшкар была директором по исследованиям в Yahoo Research, участвовала в проектах с открытым исходным кодом и была членом правления проектов, опубликовала более 25 научных статей в ведущих академических изданиях и имеет несколько патентов США. Она имеет докторскую степень по информатике, полученную в Технионе, Израильском технологическом институте.