У нас вы можете посмотреть бесплатно AI Squared - ChunkKV: Efficient KV Cache Compression for Long-Context LLMs или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
ChunkKV: Revolutionizing Memory Management in Large Language Models Tired of large language models hitting memory bottlenecks when dealing with long contexts? This podcast dives into ChunkKV, a groundbreaking technique that compresses the key-value cache in these models for more efficient processing. Discover how ChunkKV groups tokens into semantic chunks and intelligently retains only the most informative ones, all while considering the contextual relationships between tokens. We'll also explore the layer-wise index reuse technique that minimizes computational overhead. Through extensive experiments, ChunkKV has proven to outperform existing methods in both efficiency and accuracy, maintaining performance while significantly reducing memory usage. This podcast was generated by NotebookLM