• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Big Bird: Transformers for Longer Sequences (Paper Explained) скачать в хорошем качестве

Big Bird: Transformers for Longer Sequences (Paper Explained) 5 лет назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Big Bird: Transformers for Longer Sequences (Paper Explained)
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Big Bird: Transformers for Longer Sequences (Paper Explained) в качестве 4k

У нас вы можете посмотреть бесплатно Big Bird: Transformers for Longer Sequences (Paper Explained) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Big Bird: Transformers for Longer Sequences (Paper Explained) в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Big Bird: Transformers for Longer Sequences (Paper Explained)

#ai #nlp #attention The quadratic resource requirements of the attention mechanism are the main roadblock in scaling up transformers to long sequences. This paper replaces the full quadratic attention mechanism by a combination of random attention, window attention, and global attention. Not only does this allow the processing of longer sequences, translating to state-of-the-art experimental results, but also the paper shows that BigBird comes with theoretical guarantees of universal approximation and turing completeness. OUTLINE: 0:00 - Intro & Overview 1:50 - Quadratic Memory in Full Attention 4:55 - Architecture Overview 6:35 - Random Attention 10:10 - Window Attention 13:45 - Global Attention 15:40 - Architecture Summary 17:10 - Theoretical Result 22:00 - Experimental Parameters 25:35 - Structured Block Computations 29:30 - Recap 31:50 - Experimental Results 34:05 - Conclusion Paper: https://arxiv.org/abs/2007.14062 My Video on Attention:    • Attention Is All You Need   My Video on BERT:    • BERT: Pre-training of Deep Bidirectional T...   My Video on Longformer:    • Longformer: The Long-Document Transformer   ... and its memory requirements:    • How much memory does Longformer use?   Abstract: Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequence length due to their full attention mechanism. To remedy this, we propose, BigBird, a sparse attention mechanism that reduces this quadratic dependency to linear. We show that BigBird is a universal approximator of sequence functions and is Turing complete, thereby preserving these properties of the quadratic, full attention model. Along the way, our theoretical analysis reveals some of the benefits of having O(1) global tokens (such as CLS), that attend to the entire sequence as part of the sparse attention mechanism. The proposed sparse attention can handle sequences of length up to 8x of what was previously possible using similar hardware. As a consequence of the capability to handle longer context, BigBird drastically improves performance on various NLP tasks such as question answering and summarization. We also propose novel applications to genomics data. Authors: Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed Links: YouTube:    / yannickilcher   Twitter:   / ykilcher   Discord:   / discord   BitChute: https://www.bitchute.com/channel/yann... Minds: https://www.minds.com/ykilcher Parler: https://parler.com/profile/YannicKilcher LinkedIn:   / yannic-kilcher-488534136   If you want to support me, the best thing to do is to share out the content :) If you want to support me financially (completely optional and voluntary, but a lot of people have asked for this): SubscribeStar: https://www.subscribestar.com/yannick... Patreon:   / yannickilcher   Bitcoin (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Ethereum (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Litecoin (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Comments
  • Hopfield Networks is All You Need (Paper Explained) 5 лет назад
    Hopfield Networks is All You Need (Paper Explained)
    Опубликовано: 5 лет назад
  • XLNet: Generalized Autoregressive Pretraining for Language Understanding 6 лет назад
    XLNet: Generalized Autoregressive Pretraining for Language Understanding
    Опубликовано: 6 лет назад
  • FlashAttention - Tri Dao | Stanford MLSys #67 Трансляция закончилась 2 года назад
    FlashAttention - Tri Dao | Stanford MLSys #67
    Опубликовано: Трансляция закончилась 2 года назад
  • Трансформаторы-переключатели: масштабирование до моделей с триллионами параметров с простой и эфф... 4 года назад
    Трансформаторы-переключатели: масштабирование до моделей с триллионами параметров с простой и эфф...
    Опубликовано: 4 года назад
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 6 лет назад
    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
    Опубликовано: 6 лет назад
  • Kaggle Reading Group: Generating Long Sequences with Sparse Transformers | Kaggle Трансляция закончилась 6 лет назад
    Kaggle Reading Group: Generating Long Sequences with Sparse Transformers | Kaggle
    Опубликовано: Трансляция закончилась 6 лет назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained) 4 года назад
    DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)
    Опубликовано: 4 года назад
  • Все, что вам нужно знать о теории управления 3 года назад
    Все, что вам нужно знать о теории управления
    Опубликовано: 3 года назад
  • Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров 1 год назад
    Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров
    Опубликовано: 1 год назад
  • Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение 1 год назад
    Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение
    Опубликовано: 1 год назад
  • Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained) 5 лет назад
    Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)
    Опубликовано: 5 лет назад
  • Feedback Transformers: Addressing Some Limitations of Transformers with Feedback Memory (Explained) 4 года назад
    Feedback Transformers: Addressing Some Limitations of Transformers with Feedback Memory (Explained)
    Опубликовано: 4 года назад
  • ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов 1 месяц назад
    ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов
    Опубликовано: 1 месяц назад
  • Самый важный алгоритм в истории [Veritasium] 3 года назад
    Самый важный алгоритм в истории [Veritasium]
    Опубликовано: 3 года назад
  • Speculative Decoding: When Two LLMs are Faster than One 2 года назад
    Speculative Decoding: When Two LLMs are Faster than One
    Опубликовано: 2 года назад
  • Как LLM могут хранить факты | Глава 7, Глубокое обучение 1 год назад
    Как LLM могут хранить факты | Глава 7, Глубокое обучение
    Опубликовано: 1 год назад
  • 225 - Attention U-net. What is attention and why is it needed for U-Net? 4 года назад
    225 - Attention U-net. What is attention and why is it needed for U-Net?
    Опубликовано: 4 года назад
  • Поиск нейронной архитектуры без обучения (с пояснениями) 5 лет назад
    Поиск нейронной архитектуры без обучения (с пояснениями)
    Опубликовано: 5 лет назад
  • Stanford CS25: V1 I Decision Transformer: Reinforcement Learning via Sequence Modeling 3 года назад
    Stanford CS25: V1 I Decision Transformer: Reinforcement Learning via Sequence Modeling
    Опубликовано: 3 года назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5