У нас вы можете посмотреть бесплатно MoDA: Масштабирование глубины LLM с помощью многослойного механизма внимания или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью «Внимание на основе смешения глубин». Масштабирование глубины имеет важное значение для больших языковых моделей, но более глубокие слои часто страдают от ухудшения качества сигнала, поскольку информативные признаки размываются. Для решения этой проблемы исследователи представили механизм внимания на основе смешения глубин (MoDA), который позволяет элементам внимания получать доступ к парам ключ-значение как из текущего слоя, так и из предыдущих глубин. Команда разработала аппаратно-эффективный алгоритм для этого механизма, который достигает 97,3% эффективности FlashAttention-2 с минимальными вычислительными затратами. Тестирование на моделях с 1,5 миллиардами параметров показало значительное улучшение перплексии и производительности в последующих задачах по сравнению с сильными базовыми моделями. Результаты показывают, что MoDA является высокоэффективным примитивом для масштабирования глубины модели при сохранении производительности. Ссылка на статью: https://arxiv.org/pdf/2603.15619 #AI #MachineLearning #DeepLearning #LLM #AttentionMechanism #Transformer #FlashAttention #ModelScaling Ресурсы: GitHub: https://github.com/hustvl/MoDA