У нас вы можете посмотреть бесплатно I Trained an LLM to Think Deeper (Here's How) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Turns out reinforcement learning is all you need Check out my prior video on RL: • Master Reinforcement Learning With These 3... Resources: Code: https://github.com/ALucek/GRPO-Traini... Model: https://huggingface.co/AdamLucek/Qwen... DeepSeek-R1 Paper: https://arxiv.org/pdf/2501.12948 DeepSeek Math Paper: https://arxiv.org/pdf/2402.03300 Unsloth Reasoning Blog: https://unsloth.ai/blog/r1-reasoning Willccbb’s GRPO Demo: https://gist.github.com/willccbb/4676... Chapters: 00:00 - LLM Reasoning 01:44 - PPO Context 05:07 - GRPO Algorithm 07:24 - DeepSeek-R1-Zero Training 10:41 - DeepSeek-R1 Training 14:41 - Training: Model Loading 19:17 - Training: Dataset Prep 21:24 - Training: Reward Functions 23:11 - Training: GRPO Trainer 24:05 - Training: Outcome and Inference #ai #datascience #programming