• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them скачать в хорошем качестве

2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them 2 недели назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: 2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them в качестве 4k

У нас вы можете посмотреть бесплатно 2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон 2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



2509.02046 - Fantastic Pretraining Optimizers and Where to Find Them

title: Fantastic Pretraining Optimizers and Where to Find Them author: Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang arXiv:2509.02046 - https://arxiv.org/abs/2509.02046 AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

Comments
  • 2509.14252 - LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures 13 дней назад
    2509.14252 - LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
    Опубликовано: 13 дней назад
  • Как LLM могут хранить факты | Глава 7, Глубокое обучение 1 год назад
    Как LLM могут хранить факты | Глава 7, Глубокое обучение
    Опубликовано: 1 год назад
  • The Universe Tried to Hide the Gravity Particle. Physicists Found a Loophole. 3 часа назад
    The Universe Tried to Hide the Gravity Particle. Physicists Found a Loophole.
    Опубликовано: 3 часа назад
  • OpenAI Is Slowing Hiring. Anthropic's Engineers Stopped Writing Code. Here's Why You Should Care. 1 день назад
    OpenAI Is Slowing Hiring. Anthropic's Engineers Stopped Writing Code. Here's Why You Should Care.
    Опубликовано: 1 день назад
  • ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда… 4 дня назад
    ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…
    Опубликовано: 4 дня назад
  • 2512.10942 - VL-JEPA: Joint Embedding Predictive Architecture for Vision language 12 дней назад
    2512.10942 - VL-JEPA: Joint Embedding Predictive Architecture for Vision language
    Опубликовано: 12 дней назад
  • Может ли у ИИ появиться сознание? — Семихатов, Анохин 4 недели назад
    Может ли у ИИ появиться сознание? — Семихатов, Анохин
    Опубликовано: 4 недели назад
  • Новая модель интеллекта может перевернуть биологию, генетику, медицину и искусственный интеллект Трансляция закончилась 4 дня назад
    Новая модель интеллекта может перевернуть биологию, генетику, медицину и искусственный интеллект
    Опубликовано: Трансляция закончилась 4 дня назад
  • ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию? 2 месяца назад
    ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?
    Опубликовано: 2 месяца назад
  • КАК Япония Незаметно СТАЛА Мировой Станкостроительной ДЕРЖАВОЙ! 5 дней назад
    КАК Япония Незаметно СТАЛА Мировой Станкостроительной ДЕРЖАВОЙ!
    Опубликовано: 5 дней назад
  • LLM Training: Techniques and Applications 5 дней назад
    LLM Training: Techniques and Applications
    Опубликовано: 5 дней назад
  • LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили! 1 месяц назад
    LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!
    Опубликовано: 1 месяц назад
  • Объяснение тензорных процессоров (TPU) 4 месяца назад
    Объяснение тензорных процессоров (TPU)
    Опубликовано: 4 месяца назад
  • How The Fridge Destroyed One of the World’s Largest Monopolies 2 дня назад
    How The Fridge Destroyed One of the World’s Largest Monopolies
    Опубликовано: 2 дня назад
  • Тренды в ИИ 2026. К чему готовиться каждому. 1 месяц назад
    Тренды в ИИ 2026. К чему готовиться каждому.
    Опубликовано: 1 месяц назад
  • Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией 1 год назад
    Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией
    Опубликовано: 1 год назад
  • Трещины в сфере ИИ расширяются (CoT, RAG) 3 недели назад
    Трещины в сфере ИИ расширяются (CoT, RAG)
    Опубликовано: 3 недели назад
  • 2501.12948 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 2 недели назад
    2501.12948 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
    Опубликовано: 2 недели назад
  • Самая сложная модель из тех, что мы реально понимаем 1 месяц назад
    Самая сложная модель из тех, что мы реально понимаем
    Опубликовано: 1 месяц назад
  • Лучший документальный фильм про создание ИИ 3 недели назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 3 недели назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5