У нас вы можете посмотреть бесплатно Exploring “Maximum Likelihood Reinforcement Learning” with Fahim Tajwar and Guanning Zeng или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Today we have are diving into the fascinating MaxRL paper with the two co-first authors Fahim and Guanning which reshape how we should see the on-policy objective function in binary RLVR setting. This is a very interesting result for me for two reason: It is theoretically sound and pull together a lot of the recent findings together (especially around the failure at pass@k from the GRPO-like algorithm). The chance is at Dr. GRPO level of simplicity, like like a 1 line of code change to fix the pass@k issue. Come hang out and ask questions to the first authors!