• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM скачать в хорошем качестве

From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM Трансляция закончилась 10 дней назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM в качестве 4k

У нас вы можете посмотреть бесплатно From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



From the Ball-proximal (Broximal) Point Method to Efficient Training of LLM

Peter Richtarik (KAUST) https://simons.berkeley.edu/talks/pet... Learning from Heterogeneous Sources Non-smooth and non-convex global optimization poses significant challenges across various applications, where standard gradient-based methods often struggle. We propose the Ball-Proximal Point Method, Broximal Point Method, or Ball Point Method (BPM) for short – a novel algorithmic framework inspired by the classical Proximal Point Method (PPM) [8], which, as we show, sheds new light on several foundational optimization paradigms and phenomena, including non-convex and non-smooth optimization, acceleration, smoothing, adaptive stepsize selection, and trust-region methods. At the core of BPM lies the ball-proximal (“broximal”) operator, which arises from the classical proximal operator by replacing the quadratic distance penalty by a ball constraint. Surprisingly, and in sharp contrast with the sublinear rate of PPM in the nonsmooth convex regime, we prove that BPM converges linearly and in a finite number of steps in the same regime. Furthermore, by introducing the concept of ball-convexity, we prove that BPM retains the same global convergence guarantees under weaker assumptions, making it a powerful tool for a broader class of potentially non-convex optimization problems. Just like PPM plays the role of a conceptual method inspiring the development of practically efficient algorithms and algorithmic elements, e.g., gradient descent, adaptive step sizes, acceleration [1], and “W” in AdamW [9], we believe that BPM should be understood in the same manner: as a blueprint and inspiration for further development. Generalization non-Euclidean ball constraints can be found in the follow-up work [3]. The Broximal Point Method (BPM) [2] offers an idealized optimization framework based on iteratively minimizing the objective function over norm balls centered at the current iterate. It enjoys striking global convergence guarantees, converging linearly and in a finite number of steps for proper, closed and convex functions. However, its theoretical analysis has so far been confined to the Euclidean geometry. At the same time, emerging trends in deep learning optimization, exemplified by algorithms such as Muon [4] and Scion [6], demonstrate the practical advantages of minimizing over balls defined via non-Euclidean norms which better align with the underlying geometry of the associated loss landscapes. We ask whether the convergence theory of BPM can be extended to this more general, non-Euclidean setting. We give a positive answer, showing that most of the elegant guarantees of the original method carry over to arbitrary norm geometries. Along the way, we clarify which properties are preserved and which necessarily break down when leaving the Euclidean realm. Our analysis positions Non-Euclidean BPM as a conceptual blueprint for understanding a broad class of geometry-aware optimization algorithms, shedding light on the principles behind their practical effectiveness. Latest developments in deep learning optimization have brought about radically new algorithms based on the Linear Minimization Oracle (LMO) framework, such as Muon [4] and Scion [6]. After over a decade of Adam’s [5] dominance, these LMO-based methods are emerging as viable replacements, offering several practical advantages such as improved memory efficiency, better hyperparameter transferability, and most importantly, superior empirical performance on large-scale tasks, including LLM training. However, a significant gap remains between their practical use and our current theoretical understanding: prior analyses (1) overlook the layer-wise LMO application of these optimizers in practice, and (2) rely on an unrealistic smoothness assumption, leading to impractically small stepsizes. To address both, we propose a new LMO-based method called Gluon, capturing prior theoretically analyzed methods as special cases, and introduce a new refined generalized smoothness model that captures the layer-wise geometry of neural networks, matches the layer-wise practical implementation of Muon and Scion, and leads to con- vergence guarantees with strong practical predictive power. Unlike prior results, our theoretical stepsizes closely match the fine-tuned values reported in [6]. Our experiments with NanoGPT and CNN confirm that our assumption holds along the optimization trajectory, ultimately closing the gap between theory and practice...

Comments
  • Безопасность AI или контроль? Что происходит внутри крупнейших AI-компаний 1 день назад
    Безопасность AI или контроль? Что происходит внутри крупнейших AI-компаний
    Опубликовано: 1 день назад
  • Cafe De Anatolia • 24/7 Live Radio • Oriental Ethnic Deep House | Organic House | Chill-Out Lounge
    Cafe De Anatolia • 24/7 Live Radio • Oriental Ethnic Deep House | Organic House | Chill-Out Lounge
    Опубликовано:
  • FlexOlmo: Open Language Models for Flexible Data Use Трансляция закончилась 8 дней назад
    FlexOlmo: Open Language Models for Flexible Data Use
    Опубликовано: Трансляция закончилась 8 дней назад
  • Federated, Synthetic, Personalized: Heterogeneity Here or There? Трансляция закончилась 9 дней назад
    Federated, Synthetic, Personalized: Heterogeneity Here or There?
    Опубликовано: Трансляция закончилась 9 дней назад
  • The Statistical Fairness-Accuracy Frontier Трансляция закончилась 7 дней назад
    The Statistical Fairness-Accuracy Frontier
    Опубликовано: Трансляция закончилась 7 дней назад
  • Learning from multiple modalities, Predicting on unseen tasks Трансляция закончилась 7 дней назад
    Learning from multiple modalities, Predicting on unseen tasks
    Опубликовано: Трансляция закончилась 7 дней назад
  • 5 дней назад
    "Математика и законы природы" Сергей Попов
    Опубликовано: 5 дней назад
  • Exploiting Similarity in Federated Learning Трансляция закончилась 8 дней назад
    Exploiting Similarity in Federated Learning
    Опубликовано: Трансляция закончилась 8 дней назад
  • Это самый глубокий уровень материи? 20 часов назад
    Это самый глубокий уровень материи?
    Опубликовано: 20 часов назад
  • On continual learning with gradient descent for neural networks Трансляция закончилась 8 дней назад
    On continual learning with gradient descent for neural networks
    Опубликовано: Трансляция закончилась 8 дней назад
  • Privacy versus Robustness in Federated Learning: Limits and Algorithms Трансляция закончилась 9 дней назад
    Privacy versus Robustness in Federated Learning: Limits and Algorithms
    Опубликовано: Трансляция закончилась 9 дней назад
  • Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир? 8 дней назад
    Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?
    Опубликовано: 8 дней назад
  • Scale Learning and Reasoning Across Heterogeneous Gradients and Semantics Трансляция закончилась 10 дней назад
    Scale Learning and Reasoning Across Heterogeneous Gradients and Semantics
    Опубликовано: Трансляция закончилась 10 дней назад
  • 50 Прекрасная классическая музыка для расслабления и обретения внутреннего покоя ❄️ Моцарт, Бетховен 1 день назад
    50 Прекрасная классическая музыка для расслабления и обретения внутреннего покоя ❄️ Моцарт, Бетховен
    Опубликовано: 1 день назад
  • Privacy Amplification from Structured Algorithmic Randomness Трансляция закончилась 9 дней назад
    Privacy Amplification from Structured Algorithmic Randomness
    Опубликовано: Трансляция закончилась 9 дней назад
  • Personalized Collaborative Learning with Affinity-Based Variance Reduction Трансляция закончилась 7 дней назад
    Personalized Collaborative Learning with Affinity-Based Variance Reduction
    Опубликовано: Трансляция закончилась 7 дней назад
  • Symbiotic Relations between Decoupled Training, Optimization, and Federated Learning Трансляция закончилась 10 дней назад
    Symbiotic Relations between Decoupled Training, Optimization, and Federated Learning
    Опубликовано: Трансляция закончилась 10 дней назад
  • A Complex Picture of Multi-task Learning Трансляция закончилась 7 дней назад
    A Complex Picture of Multi-task Learning
    Опубликовано: Трансляция закончилась 7 дней назад
  • Privacy of Decentralized Machine Learning Трансляция закончилась 9 дней назад
    Privacy of Decentralized Machine Learning
    Опубликовано: Трансляция закончилась 9 дней назад
  • GROK Показал AGI! Илон Маск ВЗОРВАЛ Индустрию ИИ! Grok СамоОбучается! Новый Уровень ИИ! В 100 РАЗ 1 день назад
    GROK Показал AGI! Илон Маск ВЗОРВАЛ Индустрию ИИ! Grok СамоОбучается! Новый Уровень ИИ! В 100 РАЗ
    Опубликовано: 1 день назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5