У нас вы можете посмотреть бесплатно Тестирование подхода TurboQuant от Google: я получил пятикратное сжатие с точностью 99,5%! или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Google только что анонсировал TurboQuant, алгоритм сжатия, который уменьшает объем памяти LLM в 6 раз без потери точности. Но работает ли он на потребительском оборудовании? 🐦 Подписывайтесь на Tonbi в X, чтобы узнать о его экспериментах с ИИ и локальных сборках LLM! https://x.com/tonbistudio Я прочитал статьи, реализовал алгоритм с нуля на Claude Code и протестировал его на реальной модели (Qwen 2.5 3B), работающей на моей RTX 3060. Результаты: 5-кратное сжатие при 3-битном разрешении с точностью внимания 99,5%. Математика подтверждает это. Попробуйте сами! Открытый исходный код доступен по адресу https://github.com/tonbistudio/turboq... Что я тестировал: ✅ Кодовые книги Ллойд-Макса (симметричные относительно нуля) ✅ Искажение MSE в пределах теоретических границ ✅ Коррекция смещения QJL (смещение, близкое к нулю, во всех тестах) ✅ Поиск иголки в стоге сена (точность 100%) ✅ Сохранение внимания реальной модели (99,5% при 3-битном разрешении) Практические результаты на RTX 3060: • Кэш KV: 289 МБ → 58 МБ при 3-битном разрешении (5-кратное сжатие) • Контекст 8K, который раньше занимал 10 ГБ, теперь помещается менее чем в 2 ГБ • Возможно, это означает, что контекст 8K → 40K на том же оборудовании Скампи и Тонби — это дуэт человека и ИИ, которые создают и экспериментируют публично. Тонби предоставляет оборудование и проявляет любопытство. Креветки Scampi — это неутомимые исследования и источник энергии. 🦐 💻 GitHub: https://github.com/tonbistudio 🌐 Портфолио: https://www.tonbistudio.com (https://www.tonbistudio.com/) Ресурсы: 📄 Статья о TurboQuant: https://arxiv.org/abs/2504.19874 📄 Статья о PolarQuant: https://arxiv.org/abs/2502.02617 📝 Блог Google: https://research.google/blog/turboqua... 🙏 Благодарность: @Prince_Canuma за реализацию для Mac, которая вдохновила на этот тест Временные метки: 0:00 - Анонс TurboQuant от Google 1:16 - Что такое TurboQuant? Простой разбор 2:05 - Что такое квантование? 2:35 - Что такое кэш ключ-значение? 3:17 - Как работает TurboQuant (PolarQuant + QJL) 4:02 - Заявленные результаты (в 6 раз больше памяти, в 8 раз больше скорости) 5:47 - Создание собственной реализации в Claude Code 7:05 - Тест 1: Проверка кодовой книги Ллойд-Макса 7:53 - Тест 2: Коррекция смещения QJL (ключевой вывод) 9:07 - Тест 3: Коэффициенты сжатия KV-кэша 9:41 - Тест 4: Поиск иголки в стоге сена 10:15 - Реальные результаты на RTX 3060 11:29 - Тестирование с моделью Qwen 2.5 3B 13:43 - Точность сохранения внимания 15:38 - 3-битное сжатие - оптимальный вариант 16:50 - Что это значит для локальных LLM Основные выводы: • 3-битное сжатие = в 5 раз меньший KV-кэш с 99,5% Точность • 2-битный код работает, но на пределе возможностей (66% совпадений с лучшим результатом) • Переобучение не требуется, работает на существующих моделях • Потребительские графические процессоры теперь могут обрабатывать гораздо более длинные контексты Задавайте вопросы в комментариях! Код будет на моем GitHub. Ставьте лайки и подписывайтесь, чтобы увидеть больше экспериментов с локальным LLM. 🦐 #TurboQuant #LocalLLM #AICompression #KVCache #RTX3060 #Quantization #GoogleResearch #Qwen #MachineLearning