• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Sparsity for Efficient Long Sequence Generation of LLMs скачать в хорошем качестве

Sparsity for Efficient Long Sequence Generation of LLMs 2 года назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Sparsity for Efficient Long Sequence Generation of LLMs
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Sparsity for Efficient Long Sequence Generation of LLMs в качестве 4k

У нас вы можете посмотреть бесплатно Sparsity for Efficient Long Sequence Generation of LLMs или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Sparsity for Efficient Long Sequence Generation of LLMs в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Sparsity for Efficient Long Sequence Generation of LLMs

Beidi Chen Assistant Professor, Electrical Engineering & Computer Science Carnegie Mellon University Abstract: Large language models (LLMs) have sparked a new wave of exciting AI applications, but they are computationally expensive at inference time. Sparsity is a natural approach to reduce this cost, but existing methods either require costly retraining, have to forgo LLM’s in-context learning ability, or do not yield wall-clock time speedup on modern hardware. In this talk, I will show how sparsity can help overcome two major bottlenecks in LLM inference, model and KV cache IOs, and unlock the possibility of handling infinitely long sequences. First, we show Heavy-Hitter Oracle (H2O), a KV cache eviction policy that drastically reduces the memory footprint of these transient states. Our approach is based on an observation that a small portion of tokens contributes most of the value when computing attention scores – Heavy-Hitters. H2O improves the throughput over three leading inference systems DeepSpeed Zero-Inference, Hugging Face Accelerate, and FlexGen by up to 29x, 29x, and 3x on OPT-6.7B and OPT-30B. With the same batch size, H_2O can reduce the latency by up to 1.9x. Then we present Streaming LLM, a simplification to H2O based on a further finding on heavy hitters called attention sink – only keeping the KV of initial tokens will largely recover the LLM performance. It enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning. Specifically, StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. Finally, we present Dejavu, a system that uses a low-cost algorithm to predict contextual sparsity on the fly given inputs to each layer, along with an asynchronous and hardware-aware implementation that reduces model weight loading IOs. Dejavu can reduce the inference latency of OPT-175B by over 2x compared to the state-of-the-art FasterTransformer, and over 6$x compared to the widely used Hugging Face implementation, without compromising model quality. Bio: Beidi Chen is an Assistant Professor in the Department of Electrical and Computer Engineering at Carnegie Mellon University. She is a Visiting Research Scientist at FAIR, Meta. Before that, she was a postdoctoral scholar at Stanford University. She received her Ph.D. from Rice University in 2020 and her B.S. from UC Berkeley in 2015. Her research focuses on efficient machine learning. Specifically, she designs and optimizes algorithms and models on modern hardware to accelerate large machine-learning systems. Her work has won the best paper runner-up at ICML 2022, a best paper award at IISA 2018, and a best paper award at USENIX LISA 2014. She was selected as a Rising Star in EECS by MIT in 2019 and UIUC in 2021.

Comments
  • The KV Cache: Memory Usage in Transformers 2 года назад
    The KV Cache: Memory Usage in Transformers
    Опубликовано: 2 года назад
  • LLM-powered Topic Modeling 2 года назад
    LLM-powered Topic Modeling
    Опубликовано: 2 года назад
  • CSCI 1109 - M38 - What is ML? tasks; train/val/test splits 1 день назад
    CSCI 1109 - M38 - What is ML? tasks; train/val/test splits
    Опубликовано: 1 день назад
  • What is Sparsity? 5 лет назад
    What is Sparsity?
    Опубликовано: 5 лет назад
  • Одно изображение стоит NxN слов | Диффузионные трансформаторы (ViT, DiT, MMDiT) 2 недели назад
    Одно изображение стоит NxN слов | Диффузионные трансформаторы (ViT, DiT, MMDiT)
    Опубликовано: 2 недели назад
  • Как настроить Claude Code за час и получить второй мозг для решения любых своих задач Трансляция закончилась 13 дней назад
    Как настроить Claude Code за час и получить второй мозг для решения любых своих задач
    Опубликовано: Трансляция закончилась 13 дней назад
  • Yuandong Tian | Efficient Inference of LLMs with Long Context Support 2 года назад
    Yuandong Tian | Efficient Inference of LLMs with Long Context Support
    Опубликовано: 2 года назад
  • Лекция от легенды ИИ в Стэнфорде 13 дней назад
    Лекция от легенды ИИ в Стэнфорде
    Опубликовано: 13 дней назад
  • CMU LLM Inference (1): Introduction to Language Models and Inference 5 месяцев назад
    CMU LLM Inference (1): Introduction to Language Models and Inference
    Опубликовано: 5 месяцев назад
  • Как создаются степени магистра права? 3 месяца назад
    Как создаются степени магистра права?
    Опубликовано: 3 месяца назад
  • Language Model Merging - Techniques, Tools, and Implementations 1 год назад
    Language Model Merging - Techniques, Tools, and Implementations
    Опубликовано: 1 год назад
  • Лучший Гайд по Kafka для Начинающих За 1 Час 1 год назад
    Лучший Гайд по Kafka для Начинающих За 1 Час
    Опубликовано: 1 год назад
  • Вариационные автоэнкодеры | Генеративный ИИ-анимированный 1 год назад
    Вариационные автоэнкодеры | Генеративный ИИ-анимированный
    Опубликовано: 1 год назад
  • Вся IT-база в ОДНОМ видео: Память, Процессор, Код 2 месяца назад
    Вся IT-база в ОДНОМ видео: Память, Процессор, Код
    Опубликовано: 2 месяца назад
  • LLaMA explained: KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query Attention, SwiGLU 2 года назад
    LLaMA explained: KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query Attention, SwiGLU
    Опубликовано: 2 года назад
  • GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем 1 год назад
    GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем
    Опубликовано: 1 год назад
  • Machine Unlearning for Generative AI 10 месяцев назад
    Machine Unlearning for Generative AI
    Опубликовано: 10 месяцев назад
  • OpenClaw Creator: Почему 80% приложений исчезнут 11 дней назад
    OpenClaw Creator: Почему 80% приложений исчезнут
    Опубликовано: 11 дней назад
  • Поиск работы стал унижением — за что ненавидят HR 3 дня назад
    Поиск работы стал унижением — за что ненавидят HR
    Опубликовано: 3 дня назад
  • How to Train Sparse Large Language Models with Vithu Thangarasa 2 года назад
    How to Train Sparse Large Language Models with Vithu Thangarasa
    Опубликовано: 2 года назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5