• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49 скачать в хорошем качестве

Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49 1 месяц назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49 в качестве 4k

У нас вы можете посмотреть бесплатно Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49 в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49

Paper: https://arxiv.org/pdf/2502.12082 Speaker: https://mtreviso.github.io/ Slides: https://asap-seminar.github.io/assets... 0:00: Seminar introduction 0:28: Talk overview 1:36: Transformer context limits 3:11: Attention dispersion issues 4:40: Softmax as culprit 5:24: Probability simplex view 7:59: Alpha-entmax family 11:02: Long-context theory 14:33: NAPE positional encodings 15:53: Generalization benchmarks 18:34: Scaling and efficiency 21:18: FlashAttention recap 23:40: Root-finding for tau 26:04: Hybrid Halley-bisection 27:54: Sparse block kernels 29:24: Language modeling gains 31:24: Llama3 sparsity patterns 33:18: Inference-time sparsity ideas 36:01: Adapting softmax models 40:37: Trainable alpha experiments 43:07: Block size considerations 45:44: Fine-grained sparsity discussion 51:07: Tau sensitivity questions 55:38: Attention sink discussion 59:55: Closing thanks

Comments
  • TiDAR: Think in Diffusion, Talk in Autoregression - Jingyu Liu|ASAP 52 3 дня назад
    TiDAR: Think in Diffusion, Talk in Autoregression - Jingyu Liu|ASAP 52
    Опубликовано: 3 дня назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 3 недели назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 3 недели назад
  • Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48 1 месяц назад
    Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48
    Опубликовано: 1 месяц назад
  • The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47 1 месяц назад
    The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47
    Опубликовано: 1 месяц назад
  • Think-at-Hard: выборочные скрытые итерации для улучшения моделей языка рассуждений — Тянью Фу|ASA... 3 недели назад
    Think-at-Hard: выборочные скрытые итерации для улучшения моделей языка рассуждений — Тянью Фу|ASA...
    Опубликовано: 3 недели назад
  • Sparsity and Scaling: Unveiling and Enhancing Theory-of-Mind in Large Language Models|ASAP 52 4 дня назад
    Sparsity and Scaling: Unveiling and Enhancing Theory-of-Mind in Large Language Models|ASAP 52
    Опубликовано: 4 дня назад
  • AI без хайпа: как всё работает на самом деле? Александр Машрабов и первый казахстанский единорог 19 часов назад
    AI без хайпа: как всё работает на самом деле? Александр Машрабов и первый казахстанский единорог
    Опубликовано: 19 часов назад
  • Управление поведением LLM без тонкой настройки 4 дня назад
    Управление поведением LLM без тонкой настройки
    Опубликовано: 4 дня назад
  • Pre-training under infinite compute - Konwoo Kim  & Suhas Kotha | ASAP 42 2 месяца назад
    Pre-training under infinite compute - Konwoo Kim & Suhas Kotha | ASAP 42
    Опубликовано: 2 месяца назад
  • 4 часа Шопена для обучения, концентрации и релаксации 5 месяцев назад
    4 часа Шопена для обучения, концентрации и релаксации
    Опубликовано: 5 месяцев назад
  • There Is Something Faster Than Light 3 дня назад
    There Is Something Faster Than Light
    Опубликовано: 3 дня назад
  • Visualizing transformers and attention | Talk for TNG Big Tech Day '24 1 год назад
    Visualizing transformers and attention | Talk for TNG Big Tech Day '24
    Опубликовано: 1 год назад
  • Parallelizing 2 месяца назад
    Parallelizing "Inherently Sequential" Processes: Parallel Newton methods for nonlinear SSMs|ASAP 40
    Опубликовано: 2 месяца назад
  • Самая сложная модель из тех, что мы реально понимаем 23 часа назад
    Самая сложная модель из тех, что мы реально понимаем
    Опубликовано: 23 часа назад
  • [S5E3] Масштабирование за пределами авторегрессии: масштабирование порядка как новый путь к общем... 9 дней назад
    [S5E3] Масштабирование за пределами авторегрессии: масштабирование порядка как новый путь к общем...
    Опубликовано: 9 дней назад
  • 4 Hours Chopin for Studying, Concentration & Relaxation 4 года назад
    4 Hours Chopin for Studying, Concentration & Relaxation
    Опубликовано: 4 года назад
  • Big Bird: Transformers for Longer Sequences (Paper Explained) 5 лет назад
    Big Bird: Transformers for Longer Sequences (Paper Explained)
    Опубликовано: 5 лет назад
  • Почему «Трансформеры» заменяют CNN? 2 недели назад
    Почему «Трансформеры» заменяют CNN?
    Опубликовано: 2 недели назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Stanford CS229 I Machine Learning I Building Large Language Models (LLMs) 1 год назад
    Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
    Опубликовано: 1 год назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5