У нас вы можете посмотреть бесплатно Объяснение маршрутизации токенов MoE: как работает система Mixture of Experts (с кодом) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом видео подробно рассматривается маршрутизация токенов — основной алгоритм моделей смешанных экспертов (MoE). Слайды: https://huggingface.co/ariG23498/moe-... Блокнот Colab: https://huggingface.co/ariG23498/moe-... Временные метки глав: Введение: 00:00 Закладка основы для алгоритма смешанных экспертов (MoE): 00:09 Фокус на маршрутизации токенов: 00:50 Что такое слой смешанных экспертов?: 02:36 Постановка задачи и конфигурации: 04:48 Вычисление логитов маршрутизатора: 08:31 Разреженность и выбор K лучших экспертов: 10:54 Нормализация логитов в вероятности маршрутизатора: 12:43 Выбор слота: 14:39 Отбрасывание переподписанных токенов: 16:51 Обновленные нормализованные веса токенов: 20:36 Обновленный выбор слота и слоты токенов: 21:34 Построение окончательной матрицы весов: 24:35 Заключение: 32:41 Исправление: Как правильно заметил @denisflavius5365, матрица маршрутизатора на слайдах должна быть в форме 3x4, а не 4x4.