У нас вы можете посмотреть бесплатно Deep-Learning: How to improve the Scalability of The Transformer Architecture Part-1 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Part-1 Contains. 1. Paper: “Transformer Quality in Linear Time” 2. Gated Linear Unit 3. Gated Attention Unit 4. Mixed Chunk Attention 5. Relative Position Bias 6. Squared RELU Link for the supporting videos. 1. Multi-Head Self Attention and Traditional Transformer architecture: • Transformer to RNN (T2RNN) Part-1 2. XLNet Architecture: -Part-1: • XLNet Made Easy Part-1 -Part-2: • XLNet Made Easy PART 2 -Part-3: • XLNet Made Easy PART 3 3. Transformer-to-RNN (T2RNN): -Part-1: • Transformer to RNN (T2RNN) Part-1 -Part-2: • Transformer to RNN (T2RNN) Part-2 Reference [1]. Hua, Weizhe, Zihang Dai, Hanxiao Liu, and Quoc V. Le. "Transformer Quality in Linear Time." arXiv preprint arXiv:2202.10447 (2022). [2] Shazeer, Noam. "Glu variants improve transformer." arXiv preprint arXiv:2002.05202 (2020) [3]Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." Advances in neural information processing systems 30 (2017).