• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!) скачать в хорошем качестве

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!) 5 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!) в качестве 4k

У нас вы можете посмотреть бесплатно How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!) в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

In this hands-on tutorial video, I am explaining Reasoning LLMs and SLMs and writing the Group Relative Policy Optimization (GRPO) algorithm from scratch in Pytorch. This tutorial is specially directed towards Small Language Models (SLMs) but the same principles apply for Large Language Models (LLMs) too. Plus, we are going through the policy gradient equation, explaining RLVR (reinforcement learning with verifiable rewards), and visualizing exactly how reasoning models work! All materials with this video (as well as all other videos in the channel) have been shared on my Patreon page.   / neuralbreakdownwithavb   Get 25% off on Ninjachat. Access multiple frontier LLMs, image, video, audio generation models all in one place. Use this link: https://ninjachat.ai/?ref=avishek and the code AI25 to get 25% off! #ai #languagemodels #machinelearning More RL videos: Curiosity and Sparse Reward Environments:    • How to solve Reinforcement Learning when t...   RL Primer:    • Reinforcement Learning AI through 4 famous...   More Language Modelling videos: Attention to Transformers playlist:    • Attention to Transformers from zero to her...   Guide to fine-tuning open source LLMs:    • Finetune LLMs to teach them ANYTHING with ...   Generative Language Modeling from scratch:    • From Attention to Generative Language Mode...   Papers: Deepseek Math: https://arxiv.org/pdf/2402.03300 DeepSeek R1: https://arxiv.org/abs/2501.12948 DAPO: https://arxiv.org/abs/2503.14476 Critical Perspectives on R1: https://arxiv.org/abs/2503.20783 Timestamps: 0:00 - Thinking LLMs are taking over! 3:47 - Setting up Reinforcement Learning Environment 4:50 - Reasoning Gym library - Rewards 8:00 - GRPO Visually explained 10:41 - Policy Optimization and PPO loss Explained 15:45 - Coding response generation 20:55 - Coding Reward Generation & Advantages 26:25 - Calculating log probabilities 30:58 - RL Training loop 33:49 - Visualizing log probabilities post training 36:01 - The GRPO and PPO Loss function 38:19 - Surrogate clipping 41:21 - Supervised Finetuning and LORA training 43:26 - Reasoning SLM results! 45:36 - 10 Practical Tips for finetuning Reasoning SLMs

Comments
  • Context Engineering with DSPy - the fully hands-on Basics to Pro course! 4 месяца назад
    Context Engineering with DSPy - the fully hands-on Basics to Pro course!
    Опубликовано: 4 месяца назад
  • DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs 8 месяцев назад
    DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs
    Опубликовано: 8 месяцев назад
  • I Visualised Attention in Transformers 5 месяцев назад
    I Visualised Attention in Transformers
    Опубликовано: 5 месяцев назад
  • Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо... 1 год назад
    Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...
    Опубликовано: 1 год назад
  • [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han 4 месяца назад
    [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han
    Опубликовано: 4 месяца назад
  • Информационная инфляция: конец эпохи знаний 3 дня назад
    Информационная инфляция: конец эпохи знаний
    Опубликовано: 3 дня назад
  • Цепи Маркова — математика предсказаний [Veritasium] 2 месяца назад
    Цепи Маркова — математика предсказаний [Veritasium]
    Опубликовано: 2 месяца назад
  • LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили! 9 дней назад
    LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!
    Опубликовано: 9 дней назад
  • GRPO - Group Relative Policy Optimization  - How DeepSeek trains reasoning models 7 месяцев назад
    GRPO - Group Relative Policy Optimization - How DeepSeek trains reasoning models
    Опубликовано: 7 месяцев назад
  • Diffusion Language Models vs Autoregressive Language Models 6 месяцев назад
    Diffusion Language Models vs Autoregressive Language Models
    Опубликовано: 6 месяцев назад
  • Как ИИ научился думать 1 год назад
    Как ИИ научился думать
    Опубликовано: 1 год назад
  • От внимания к генеративным языковым моделям — по одной строке кода за раз! 1 год назад
    От внимания к генеративным языковым моделям — по одной строке кода за раз!
    Опубликовано: 1 год назад
  • Reinforcement Learning with Verifiable Rewards - Teaching LLMs to Solve Problems 1 месяц назад
    Reinforcement Learning with Verifiable Rewards - Teaching LLMs to Solve Problems
    Опубликовано: 1 месяц назад
  • THIS is why large language models can understand the world 8 месяцев назад
    THIS is why large language models can understand the world
    Опубликовано: 8 месяцев назад
  • Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты) 2 месяца назад
    Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)
    Опубликовано: 2 месяца назад
  • 🔴 Профессор Цзян: готовьтесь к 2 войнам и 1 НЕИЗБЕЖНОМУ краху (к 2026 году?!) | @PredictiveHistory 1 месяц назад
    🔴 Профессор Цзян: готовьтесь к 2 войнам и 1 НЕИЗБЕЖНОМУ краху (к 2026 году?!) | @PredictiveHistory
    Опубликовано: 1 месяц назад
  • Andrej Karpathy: Software Is Changing (Again) 5 месяцев назад
    Andrej Karpathy: Software Is Changing (Again)
    Опубликовано: 5 месяцев назад
  • How to solve Reinforcement Learning when there are ZERO rewards (Curiosity & RND) 7 месяцев назад
    How to solve Reinforcement Learning when there are ZERO rewards (Curiosity & RND)
    Опубликовано: 7 месяцев назад
  • RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models 8 месяцев назад
    RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models
    Опубликовано: 8 месяцев назад
  • Момент, когда мы перестали понимать ИИ [AlexNet] 1 год назад
    Момент, когда мы перестали понимать ИИ [AlexNet]
    Опубликовано: 1 год назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5