У нас вы можете посмотреть бесплатно Почему нейросети меняют подход в 2025 году? Mixture of Experts (MoE) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
📌 Заполни анкету прямо сейчас и получи чек-лист «15 самых популярных вопросов с собеседований и ответы на них» Анкета предзаписи: https://vk.cc/cO375f Курс «База ML»: https://clck.ru/3PGm5s Курс «ML в бизнесе»: https://clck.ru/3PGm9q Telegram MLinside: https://t.me/+xPCRRLylQh5lMmI6 Ссылка на статью: https://www.cs.toronto.edu/~fritz/abs... Что эффективнее: один гений-универсал или команда узких специалистов? Машинное обучение переживает переломный момент: нейросети переходят от «гениев-одиночек» к архитектурам, где работают команды экспертов. Такой подход называется Mixture of Experts (MoE) и уже меняет правила игры в индустрии. Андрей Жогов — ML-инженер в Сбере, преподаватель Физтеха и методист Data Science — простыми словами объясняет, что такое MoE, зачем оно нужно и почему именно эта архитектура позволит строить модели с триллионами параметров. В этом видео: • Почему традиционные нейросети упёрлись в «бутылочное горлышко» • Что такое условные вычисления и как они экономят ресурсы • Как маршрутизатор распределяет задачи между экспертами • Пример: модель с 46 млрд параметров, но работающая как 13 млрд • Преимущества MoE: эффективность, скорость обучения, масштабируемость • Недостатки: память, сложность обучения, коммуникационные издержки • История: от идей 1990-х до Google Brain и современных моделей Подходит тем, кто: • учит архитектуры нейросетей и хочет понимать новые тренды • готовится к собеседованию по ML / Data Science • следит за развитием LLM и хочет знать, что будет дальше Это часть серии MLinside — честно, по делу и без лишней воды. Таймкоды: 00:00 — Один гений против команды: аналогия для понимания MoE 01:19 — «Бутылочное горлышко»: почему традиционные нейросети не масштабируются 01:58 — Что такое Mixture of Experts и как работает принцип условных вычислений 03:41 — Как маршрутизатор распределяет задачи между экспертами 04:39 — Пример модели: 46,7 млрд параметров, но активно только 13 млрд 05:01 — Преимущества MoE: эффективность, скорость и масштабируемость 07:50 — Проблемы обучения: перегрузка одних экспертов и решение через балансировку нагрузки