У нас вы можете посмотреть бесплатно Нам больше не нужен KV-кэш? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Кэш ключ-значение (KV-кэш) — это самая большая статья расходов памяти в выводе трансформеров. В ходе 20-ходового диалога на Gemma 12B он увеличивается почти до гигабайта. Каждая производственная система управляет им. Каждый фреймворк для развертывания оптимизирует работу вокруг него. А что, если он избыточн? Остаточный поток — внутренний вектор состояния модели — это полное вычислительное состояние на каждом слое. K и V — линейные проекции этого состояния. Они не содержат никакой информации, которой остаточный поток уже не содержит. Я доказываю это эмпирически: нулевая разница на каждом слое, идентичный результат токен за токеном, работающий код, который вы можете проверить самостоятельно. Затем я строю ограниченный вывод на его основе — 92% от стандартной скорости KV при 15% памяти, стабильная производительность на каждом ходу, в то время как стандартная скорость KV снижается. Код (Apache 2.0): https://github.com/chrishayuk/chuk-la... Инструментарий для обеспечения интерпретируемости (64 инструмента): https://github.com/chrishayuk/chuk-mc...