У нас вы можете посмотреть бесплатно Гипермасштабирование времени вывода с помощью сжатия KV-кэша или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Гипермасштабирование времени вывода с помощью сжатия кэша ключ-значение https://openreview.net/pdf?id=8ZiElzQxf1 В этом исследовании представлено гипермасштабирование времени вывода — метод, улучшающий рассуждения в больших языковых моделях (LLM) за счет сжатия кэша ключ-значение. Стандартные модели рассуждений часто ограничены объемом памяти и задержкой, но уменьшение размера кэша позволяет им генерировать больше параллельных или более длинных цепочек рассуждений в рамках того же вычислительного бюджета. Для достижения этой цели авторы разработали динамическое разреживание памяти (DMS) — эффективный с точки зрения данных метод для модернизации моделей с целью выборочного удаления менее важных токенов. В отличие от альтернатив, не требующих обучения, DMS поддерживает высокую точность даже при 8-кратном сжатии за счет использования политики отложенного удаления. Эксперименты с различными моделями Qwen-R1 и Llama демонстрируют значительное повышение производительности на математических, программных и научных тестах. В конечном итоге, исследование показывает, что эффективные механизмы внимания необходимы для расширения границы Парето интеллекта моделей во время вывода. #ai #research #largelanguagemodels #inference #kvcache Отказ от ответственности: это видео создано с помощью Google NotebookLM.