У нас вы можете посмотреть бесплатно Planning, Reasoning, and Agents RG, 2025-10-01 Session: Emergent Hierarchical Reasoning in LLMs или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Alex Spangher discusses the paper "Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning." He shows the paper's analysis of a two-phase RL dynamic where models first consolidate procedural skills before shifting to master high-level strategic planning. This two-phase dynamic motivates Hierarchy-Aware Credit Assignment (HICRA), which aims to improve learning efficiency by modulating the weight of key planning tokens in GRPO loss formulation. Presenter: Alex Spangher Links: https://arxiv.org/abs/2509.03646 Reading group on Discord: / discord