У нас вы можете посмотреть бесплатно 松尾研LLMコミュニティ【Paper&Hacks #68】推論モデルにおけるGRPO・RLVRの諸課題と小規模推論モデルVibeThinker-1.5B или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
概要: 毎週火曜日20時から、松尾・岩澤研究室が主催するLLMに関する輪読会 & 実装のオンラインイベントです。 対象: 普段から論文を読んでいる/普段からLLMの実装を行なっている方々 レベル: ★★★★☆ (Expert) 発表者: 鈴木知行(松尾研LLMコミュニティメンバー) タイトル: 「推論モデルにおけるGRPO・RLVRの諸課題と小規模推論モデルVibeThinker-1.5B」 発表カテゴリ: 理論中心 イベント内容: ①RLは基盤モデルを真に超えているのか? ②GRPOにおけるエントロピー崩壊・モデル崩壊と解決策 ③小規模推論モデルは可能なのか? 論文リンク: [1] Sen Xu et al. (2025) “Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B” arXiv:2511.06221 [2] Yang Yue et al. (2025) “Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” arXiv:2504.13837 [3] Xumeng Wen et al. (2025) “RLVR CoT-PassK:Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs” arXiv:2506.14245 [4] Qiying Yu et al. (2025) “DAPO: An Open-Source LLM Reinforcement Learning System at Scale ” arXiv:2503.14476 [5] Chujie Zheng et al. (2025) “Group Sequence Policy Optimization” arXiv:2507.18071 [6] Mingjie Liu et al. (2025) “ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models” arXiv:2505.24864 ----- その他 次回 Paper & Hacks 視聴申し込み 今後のPaper & Hacks の登壇申し込み https://linktr.ee/matsuolab_community 次回講座申込フォームの公開しております。[予約フォームはこちら](https://forms.gle/8GTirmvUH3KKRmXq5) ----- 本発表は、松尾研LLMコミュニティに参加しているメンバー個人の見解に基づくものであり、東京大学ならびに松尾・岩澤研究室等の組織を代表するものではありません。