У нас вы можете посмотреть бесплатно 🚀 Как YouTube ускорил LLM-рекомендации в 800 раз? Разбор технологии STATIC или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В современном поиске и рекомендациях происходит смена парадигм: на смену обычному поиску по эмбеддингам приходит Generative Retrieval (Генеративное извлечение). В этой системе LLM напрямую генерирует Семантический ID (Semantic ID) целевого контента. Но есть проблема: как заставить модель следовать бизнес-логике (например, рекомендовать только «свежие» видео или товары в наличии)? Обычно для этого используют ограниченное декодирование (constrained decoding) с помощью префиксных деревьев (Tries). Но стандартные деревья работают крайне медленно на GPU и TPU из-за постоянных переходов по указателям (pointer chasing), что не дает эффективно использовать память. Инженеры Google и YouTube предложили решение — STATIC (Sparse Transition Matrix-Accelerated Trie Index). В чем суть прорыва? Векторизация дерева: Исследователи превратили префиксное дерево в статичную матрицу в формате Compressed Sparse Row (CSR). Это позволило превратить хаотичный обход дерева в быстрые векторные операции с разреженными матрицами. Архитектура без ветвлений: Алгоритм разработан так, чтобы исключить лишние обмены данными между хостом и ускорителем, делая процесс полностью «нативным» для оборудования. Масштабируемость: Технология эффективно работает даже с огромными словарями — до 20 миллионов и более объектов. Результаты впечатляют: Скорость: STATIC в 837 раз быстрее реализации дерева на CPU и в 47–102 раза быстрее, чем другие методы на ускорителях. Минимальная задержка: Накладные расходы составляют всего 0,13 мс на шаг декодирования. Реальное применение: Технология уже развернута на платформе YouTube, обслуживающей миллиарды пользователей. Решение проблемы «холодного старта»: Использование STATIC значительно улучшает рекомендации для новых объектов, которые модель еще не видела при обучении. Эта работа — мост между классическими структурами данных и современными компиляторами глубокого обучения (XLA/Inductor), открывающий путь к сверхбыстрым генеративным рекомендациям в реальном времени. 🧬 Подробнее о коде и методах: Проект доступен в open-source: github.com/youtube/static-constrained-decoding. #YouTubeEngineering #LLM #GenerativeRetrieval #MachineLearning #MachineLearningSystem #STATIC #googleresearch Поддержка: https://boosty.to/krastykovyaz создано с помощью NotebookLM