У нас вы можете посмотреть бесплатно Unsloth训练自己的R1推理模型 - DeepSeek GRPO или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
#unsloth #deepseek #r1 推荐一个目前全网价格最实惠的合租平台,ChatGPT,MidJourney,奈飞,迪士尼,苹果TV等热门软件应有尽有 - https://dub.sh/unibus ,首单9折优惠 - 优惠码 01Coder 加入我的知识星球:https://t.zsxq.com/W5Oj7 关注我的Twitter: / verysmallwoods 关注我的Bilibili: https://space.bilibili.com/615957867/ 如果您有任何问题或者建议,欢迎通过邮件联系我:[email protected] Unsloth是一款非常流行的高效大模型训练与微调工具。近期Unsloth也宣布支持GRPO。本期视频基于Unsloth官方博客的介绍,分享如何用Unsloth,利用GRPO,训练一款类似DeepSeek R1的具有自主思考推理能力的大模型。 R1 Reasoning | Unsloth Blog https://unsloth.ai/blog/r1-reasoning Unsloth GRPO notebook: Llama 3.1 (8B) on Colab https://colab.research.google.com/git... OpenAI GSM8K数据集 https://huggingface.co/datasets/opena... 如果您喜欢这个视频并希望请我喝一杯咖啡,欢迎前往我的BuyMeACoffee页面 👉 https://www.buymeacoffee.com/01coder 【Unsloth】播放列表 • Unsloth 章节 00:00 用Unsloth训练自己的R1推理模型 01:08 Unsloth与GRPO简介 03:38 Colab环境准备 05:16 加载预训练模型 06:03 配置PEFT模型 06:42 准备训练数据集,定义奖励函数 07:52 设置GRPO训练配置 09:42 创建训练器 11:43 训练后的推理测试 12:03 保存训练后的模型 13:30 总结