У нас вы можете посмотреть бесплатно #280 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Моделирование с длинным контекстом критически важно для языковых моделей нового поколения, однако высокая вычислительная стоимость стандартных механизмов внимания создаёт значительные вычислительные трудности. Разреженное внимание предлагает многообещающее направление для повышения эффективности при сохранении возможностей модели. В данной работе представлен NSA – изначально обучаемый механизм разреженного внимания, который объединяет алгоритмические инновации с аппаратной оптимизацией для достижения эффективного моделирования с длинным контекстом. NSA использует динамическую иерархическую стратегию разреженного внимания, сочетающую крупнозернистое сжатие токенов с мелкозернистым выбором токенов для сохранения как глобальной осведомлённости о контексте, так и локальной точности. Этот подход развивает проектирование разреженного внимания благодаря двум ключевым инновациям: (1) Он достигает существенного ускорения за счёт разработки алгоритма, сбалансированного по арифметической интенсивности, с оптимизацией реализации для современного оборудования. (2) Он обеспечивает сквозное обучение, сокращая предварительные вычисления без ущерба для производительности модели. Эксперименты показывают, что модели, предварительно обученные с помощью NSA, сохраняют или превосходят модели полного внимания в общих бенчмарках, задачах с длинным контекстом и рассуждениях на основе инструкций. Между тем, NSA достигает существенного ускорения по сравнению с полным вниманием на последовательностях длиной 64 КБ при декодировании, прямом и обратном распространении, подтверждая свою эффективность на протяжении всего жизненного цикла модели. В этом видео я расскажу о следующем: как работает Native Sparse Attention? Как работают сжатие токенов, выбор токенов и скользящее окно в NSA? Как работает Native Sparse Attention? Подробнее см. по ссылке https://arxiv.org/pdf/2502.11089 Юань, Цзиньян, Хуацзо Гао, Дамай Дай, Цзюнью Ло, Лян Чжао, Чжэнъянь Чжан, Чжэнда Се и др. «Native Sparse Attention: Аппаратно-выровненное и нативно обучаемое разреженное внимание». Препринт arXiv, arXiv:2502.11089 (2025). Спасибо за просмотр! LinkedIn: http://aka.ms/manishgupta Домашняя страница: https://sites.google.com/view/manishg/