• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained скачать в хорошем качестве

Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained 3 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained в качестве 4k

У нас вы можете посмотреть бесплатно Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained

In this video we dive into Proximal Policy Optimization (PPO) and Group Relative Policy Optimization. Both are Reinforcement Learning methods and became very popular through their application in Large Language Models. They are used during post-training to align models to preference data. This preference data is often modeled through a return function. The video covers the entire math derivation of PPO and GRPO, starting with a super intuitive initial idea and slowly going through the different steps that are needed to arrive at the final objectives. Enjoy! 00:00 Introduction 01:17 Problem Statement 03:17 Intuitive Objective 04:07 Analytically Computable Objective 10:11 Return Function 12:07 Value Function 14:53 Importance Sampling 17:40 TRPO 19:16 PPO 21:15 GRPO 23:45 Summary 24:31 Outro Further Reading: 1. Log-derivative: https://andrewcharlesjones.github.io/... 2. RL Introduction (really good!): https://spinningup.openai.com/en/late... 3. Return Function: https://spinningup.openai.com/en/late... 4. Value Function https://spinningup.openai.com/en/late... 5. Importance Sampling: f   • Importance Sampling   6. TRPO Explanation :   / rl-trust-region-policy-optimization-trpo-e...   7. TRPO Paper https://arxiv.org/abs/1502.05477 8. PPO Paper: https://arxiv.org/abs/1707.06347 9. GRPO Paper: https://arxiv.org/abs/2402.03300 10. REINFORCE Paper: https://people.cs.umass.edu/~barto/co... #ppo #grpo #rlhf #reinforcementlearning #gpt

Comments
  • Оптимизация прямых предпочтений (DPO) | Объяснение статьи 1 месяц назад
    Оптимизация прямых предпочтений (DPO) | Объяснение статьи
    Опубликовано: 1 месяц назад
  • Rotary Positional Embeddings Explained | Transformer 5 месяцев назад
    Rotary Positional Embeddings Explained | Transformer
    Опубликовано: 5 месяцев назад
  • The Hairy Ball Theorem 4 дня назад
    The Hairy Ball Theorem
    Опубликовано: 4 дня назад
  • Proximal Policy Optimization Explained 4 года назад
    Proximal Policy Optimization Explained
    Опубликовано: 4 года назад
  • DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs 10 месяцев назад
    DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs
    Опубликовано: 10 месяцев назад
  • The Integral That Changed Math Forever 9 месяцев назад
    The Integral That Changed Math Forever
    Опубликовано: 9 месяцев назад
  • We still don't understand magnetism 5 дней назад
    We still don't understand magnetism
    Опубликовано: 5 дней назад
  • В чем разница между матрицами и тензорами? 3 месяца назад
    В чем разница между матрицами и тензорами?
    Опубликовано: 3 месяца назад
  • Policy Gradient Methods | Reinforcement Learning Part 6 2 года назад
    Policy Gradient Methods | Reinforcement Learning Part 6
    Опубликовано: 2 года назад
  • Gaussian Processes 9 месяцев назад
    Gaussian Processes
    Опубликовано: 9 месяцев назад
  • Визуализация оптимизации групповой политики (GRPO) 1 год назад
    Визуализация оптимизации групповой политики (GRPO)
    Опубликовано: 1 год назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Савватеев разоблачает фокусы Земскова 4 дня назад
    Савватеев разоблачает фокусы Земскова
    Опубликовано: 4 дня назад
  • Что такое cos( cos( cos( cos( cos( cos( cos( cos( cos( cos( cos( cos( cos(…?? // Теорема Банаха о... 4 года назад
    Что такое cos( cos( cos( cos( cos( cos( cos( cos( cos( cos( cos( cos( cos(…?? // Теорема Банаха о...
    Опубликовано: 4 года назад
  • The 90-Degree Torque Problem 4 дня назад
    The 90-Degree Torque Problem
    Опубликовано: 4 дня назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 2 месяца назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 2 месяца назад
  • Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу. 1 месяц назад
    Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.
    Опубликовано: 1 месяц назад
  • Reinforcement Learning, RLHF, & DPO Explained 1 год назад
    Reinforcement Learning, RLHF, & DPO Explained
    Опубликовано: 1 год назад
  • Terry Tao: 1 месяц назад
    Terry Tao: "LLMs Are Simpler Than You Think – The Real Mystery Is Why They Work!"
    Опубликовано: 1 месяц назад
  • Почему Питер Шольце — математик, каких бывает раз в поколение? 1 месяц назад
    Почему Питер Шольце — математик, каких бывает раз в поколение?
    Опубликовано: 1 месяц назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5