• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Superposition Yields Robust Neural Scaling скачать в хорошем качестве

Superposition Yields Robust Neural Scaling 8 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Superposition Yields Robust Neural Scaling
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Superposition Yields Robust Neural Scaling в качестве 4k

У нас вы можете посмотреть бесплатно Superposition Yields Robust Neural Scaling или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Superposition Yields Robust Neural Scaling в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Superposition Yields Robust Neural Scaling

Superposition Yields Robust Neural Scaling Yizhou liu, Ziming Liu, Jeff Gore The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law -- the finding that loss decreases as a power law with model size -- remains unclear. Starting from two empirical principles -- that LLMs represent more things than the model dimensions (widths) they have (i.e., representations are superposed), and that words or concepts in language occur with varying frequencies -- we constructed a toy model to study the loss scaling with model size. We found that when superposition is weak, meaning only the most frequent features are represented without interference, the scaling of loss with model size depends on the underlying feature frequency; if feature frequencies follow a power law, so does the loss. In contrast, under strong superposition, where all features are represented but overlap with each other, the loss becomes inversely proportional to the model dimension across a wide range of feature frequency distributions. This robust scaling behavior is explained geometrically: when many more vectors are packed into a lower dimensional space, the interference (squared overlaps) between vectors scales inversely with that dimension. We then analyzed four families of open-sourced LLMs and found that they exhibit strong superposition and quantitatively match the predictions of our toy model. The Chinchilla scaling law turned out to also agree with our results. We conclude that representation superposition is an important mechanism underlying the observed neural scaling laws. We anticipate that these insights will inspire new training strategies and model architectures to achieve better performance with less computation and fewer parameters. https://arxiv.org//abs/2505.10465v1

Comments
  • Но что такое нейронная сеть? | Глава 1. Глубокое обучение 8 лет назад
    Но что такое нейронная сеть? | Глава 1. Глубокое обучение
    Опубликовано: 8 лет назад
  • Почему «Трансформеры» заменяют CNN? 2 месяца назад
    Почему «Трансформеры» заменяют CNN?
    Опубликовано: 2 месяца назад
  • Superposition in neural networks | Dario Amodei and Lex Fridman 1 год назад
    Superposition in neural networks | Dario Amodei and Lex Fridman
    Опубликовано: 1 год назад
  • Все волновые явления объяснены менее чем за 14 минут. 2 месяца назад
    Все волновые явления объяснены менее чем за 14 минут.
    Опубликовано: 2 месяца назад
  • What we learned from the 3-body problem 3 дня назад
    What we learned from the 3-body problem
    Опубликовано: 3 дня назад
  • Управление поведением LLM без тонкой настройки 1 месяц назад
    Управление поведением LLM без тонкой настройки
    Опубликовано: 1 месяц назад
  • Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение 1 год назад
    Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение
    Опубликовано: 1 год назад
  • Краткое объяснение больших языковых моделей 1 год назад
    Краткое объяснение больших языковых моделей
    Опубликовано: 1 год назад
  • Технология mHC от DeepSeek: решение проблемы «взрывающегося градиента» в программах магистратуры ... 1 месяц назад
    Технология mHC от DeepSeek: решение проблемы «взрывающегося градиента» в программах магистратуры ...
    Опубликовано: 1 месяц назад
  • ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию? 1 месяц назад
    ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?
    Опубликовано: 1 месяц назад
  • Что такое эмбеддинги? Объяснение векторных представлений 2 дня назад
    Что такое эмбеддинги? Объяснение векторных представлений
    Опубликовано: 2 дня назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 2 месяца назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 2 месяца назад
  • Все, что вам нужно знать о теории управления 3 года назад
    Все, что вам нужно знать о теории управления
    Опубликовано: 3 года назад
  • Самая сложная модель из тех, что мы реально понимаем 1 месяц назад
    Самая сложная модель из тех, что мы реально понимаем
    Опубликовано: 1 месяц назад
  • 🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение) 2 года назад
    🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)
    Опубликовано: 2 года назад
  • Music for Men Who Stay Silent | Gentleman Dark Blues 1 месяц назад
    Music for Men Who Stay Silent | Gentleman Dark Blues
    Опубликовано: 1 месяц назад
  • Как я автоматизировал NotebookLM с помощью Claude Code и Telegram 10 дней назад
    Как я автоматизировал NotebookLM с помощью Claude Code и Telegram
    Опубликовано: 10 дней назад
  • Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение 8 лет назад
    Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение
    Опубликовано: 8 лет назад
  • The geometry that helps LLMs generalize: Superposition 4 месяца назад
    The geometry that helps LLMs generalize: Superposition
    Опубликовано: 4 месяца назад
  • Сатья Наделла (ген. директор Microsoft) о будущем ИИ, автономных агентах, диффузии ИИ, токенизации. 1 день назад
    Сатья Наделла (ген. директор Microsoft) о будущем ИИ, автономных агентах, диффузии ИИ, токенизации.
    Опубликовано: 1 день назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5