• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

How DeepSeek Rewrote the Transformer [MLA] скачать в хорошем качестве

How DeepSeek Rewrote the Transformer [MLA] 9 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
How DeepSeek Rewrote the Transformer [MLA]
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: How DeepSeek Rewrote the Transformer [MLA] в качестве 4k

У нас вы можете посмотреть бесплатно How DeepSeek Rewrote the Transformer [MLA] или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон How DeepSeek Rewrote the Transformer [MLA] в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



How DeepSeek Rewrote the Transformer [MLA]

Thanks to KiwiCo for sponsoring today’s video! Go to https://www.kiwico.com/welchlabs and use code WELCHLABS for 50% off your first monthly club crate or for 20% off your first Panda Crate! MLA/DeepSeek Poster at 17:12 (Free shipping for a limited time with code DEEPSEEK): https://www.welchlabs.com/resources/m... Limited edition MLA Poster and Signed Book: https://www.welchlabs.com/resources/d... Imaginary Numbers book is back in stock! https://www.welchlabs.com/resources/i... Special Thanks to Patrons   / welchlabs   Juan Benet, Ross Hanson, Yan Babitski, AJ Englehardt, Alvin Khaled, Eduardo Barraza, Hitoshi Yamauchi, Jaewon Jung, Mrgoodlight, Shinichi Hayashi, Sid Sarasvati, Dominic Beaumont, Shannon Prater, Ubiquity Ventures, Matias Forti, Brian Henry, Tim Palade, Petar Vecutin, Nicolas baumann, Jason Singh, Robert Riley, vornska, Barry Silverman, Jake Ehrlich References DeepSeek-V2 paper: https://arxiv.org/pdf/2405.04434 DeepSeek-R1 paper: https://arxiv.org/abs/2501.12948 Great Article by Ege Erdil: https://epoch.ai/gradient-updates/how... GPT-2 Visualizaiton: https://github.com/TransformerLensOrg... Manim Animations: https://github.com/stephencwelch/mani... Technical Notes 1. Note that DeepSeek-V2 paper claims a KV cache size reduction of 93.3%. They don’t exactly publish their methodology, but as far as I can tell it’s something likes this: start with Deepseek-v2 hyperparameters here: https://huggingface.co/deepseek-ai/De.... num_hidden_layers=30, num_attention_heads=32, v_head_dim = 128. If DeepSeek-v2 was implemented with traditional MHA, then KV cache size would be 2*32*128*30*2=491,520 B/token. With MLA with a KV cache size of 576, we get a total cache size of 576*30=34,560 B/token. The percent reduction in KV cache size is then equal to (491,520-34,560)/492,520=92.8%. The numbers I present in this video follow the same approach but are for DeepSeek-v3/R1 architecture: https://huggingface.co/deepseek-ai/De.... num_hidden_layers=61, num_attention_heads=128, v_head_dim = 128. So traditional MHA cache would be 2*128*128*61*2 = 3,997,696 B/token. MLA reduces this to 576*61*2=70,272 B/token. Tor the DeepSeek-V3/R1 architecture, MLA reduces the KV cache size by a factor of 3,997,696/70,272 =56.9X. 2. I claim a couple times that MLA allows DeepSeek to generate tokens more than 6x faster than a vanilla transformer. The DeepSeek-V2 paper claims a slightly less than 6x throughput improvement with MLA, but since the V3/R1 architecture is heavier, we expect a larger lift, which is why i claim “more than 6x faster than a vanilla transformer” - in reality it’s probably significantly more than 6x for the V3/R1 architecture. 3. In all attention patterns and walkthroughs, we’re ignoring the |beginning of sentence| token. “The American flag is red, white, and” actually maps to 10 tokens if we include this starting token, and may attention patterns do assign high values to this token. 4. We’re ignoring bias terms matrix equations. 5. We’re ignoring positional embeddings. These are fascinating. See DeepSeek papers and ROPE.

Comments
  • Как считает квантовый компьютер? Самое простое объяснение! 8 дней назад
    Как считает квантовый компьютер? Самое простое объяснение!
    Опубликовано: 8 дней назад
  • Принц Персии: разбираем код гениальной игры, вытирая слезы счастья 2 недели назад
    Принц Персии: разбираем код гениальной игры, вытирая слезы счастья
    Опубликовано: 2 недели назад
  • Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах. 3 недели назад
    Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.
    Опубликовано: 3 недели назад
  • Момент, когда мы перестали понимать ИИ [AlexNet] 1 год назад
    Момент, когда мы перестали понимать ИИ [AlexNet]
    Опубликовано: 1 год назад
  • Биология опережает ЛЮБЫЕ машины. Молекулярные моторы живых организмов внутри клеток 1 день назад
    Биология опережает ЛЮБЫЕ машины. Молекулярные моторы живых организмов внутри клеток
    Опубликовано: 1 день назад
  • То, что они только что построили, — нереально 3 недели назад
    То, что они только что построили, — нереально
    Опубликовано: 3 недели назад
  • Как НА САМОМ ДЕЛЕ работает GoodbyeDPI и Zapret? 2 дня назад
    Как НА САМОМ ДЕЛЕ работает GoodbyeDPI и Zapret?
    Опубликовано: 2 дня назад
  • Цепи Маркова — математика предсказаний [Veritasium] 2 месяца назад
    Цепи Маркова — математика предсказаний [Veritasium]
    Опубликовано: 2 месяца назад
  • Промышленные роботы в СССР (1986 год) 13 лет назад
    Промышленные роботы в СССР (1986 год)
    Опубликовано: 13 лет назад
  • DeepSeek V3.2 Just Broke SoTA Again… But How? 4 дня назад
    DeepSeek V3.2 Just Broke SoTA Again… But How?
    Опубликовано: 4 дня назад
  • The Misconception that Almost Stopped AI [How Models Learn Part 1] 7 месяцев назад
    The Misconception that Almost Stopped AI [How Models Learn Part 1]
    Опубликовано: 7 месяцев назад
  • I Visualised Attention in Transformers 5 месяцев назад
    I Visualised Attention in Transformers
    Опубликовано: 5 месяцев назад
  • Самый длинный нос в истории авиации. Lockheed Martin X-59 QueSST 4 дня назад
    Самый длинный нос в истории авиации. Lockheed Martin X-59 QueSST
    Опубликовано: 4 дня назад
  • The Strange Math That Predicts (Almost) Anything 4 месяца назад
    The Strange Math That Predicts (Almost) Anything
    Опубликовано: 4 месяца назад
  • The Man Behind DeepSeek (Liang Wenfeng) 10 месяцев назад
    The Man Behind DeepSeek (Liang Wenfeng)
    Опубликовано: 10 месяцев назад
  • Почему Unreal Engine 5.7 — это ВАЖНОЕ событие 4 недели назад
    Почему Unreal Engine 5.7 — это ВАЖНОЕ событие
    Опубликовано: 4 недели назад
  • Османская империя за 17 минут 3 дня назад
    Османская империя за 17 минут
    Опубликовано: 3 дня назад
  • Почему МАЛЕНЬКИЙ атом создает такой ОГРОМНЫЙ взрыв? 13 дней назад
    Почему МАЛЕНЬКИЙ атом создает такой ОГРОМНЫЙ взрыв?
    Опубликовано: 13 дней назад
  • Преобразование Фурье: лучшее объяснение (для начинающих) 2 месяца назад
    Преобразование Фурье: лучшее объяснение (для начинающих)
    Опубликовано: 2 месяца назад
  • Building the PERFECT Linux PC with Linus Torvalds 12 дней назад
    Building the PERFECT Linux PC with Linus Torvalds
    Опубликовано: 12 дней назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5