У нас вы можете посмотреть бесплатно SSA: Training Better Sparse Attention for LLMs или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
In this AI Research Roundup episode, Alex discusses the paper: 'SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space(2511.20102v1)' This work tackles the quadratic cost of full attention in large language models and the performance drop often seen with training-free sparse attention. The authors identify a key issue in native sparse-attention methods: excluded key–value pairs receive no gradients, preventing them from learning proper suppression and paradoxically reducing sparsity. SSA introduces a unified training framework that jointly considers sparse and full attention at every layer, enforcing bidirectional alignment in feature space. This preserves gradient flow to all tokens while explicitly encouraging sparse-attention outputs to match full-attention behavior, resulting in stronger sparsity and more efficient long-context processing. Paper URL: https://arxiv.org/pdf/2511.20102 #AI #MachineLearning #DeepLearning #LargeLanguageModels #SparseAttention #TransformerModels #LongContext