У нас вы можете посмотреть бесплатно New Directions in RL: TD(lambda), aggregation, seminorm projections, free-form sampling (from 2014) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
This lecture explores three interrelated research directions in approximate dynamic programming and reinforcement learning: 1. Seminorm projections (unifying projected equation and aggregation approaches), generalized Bellman equations (multistep equations with state-dependent weights; the TD(lambda) equation is an example), and free form sampling (a flexible alternative to single long trajectory simulation) 2 Aggregation and seminorm projected equations 3 Simulation-based implementation of iterative and matrix inversion methods using free-form sampling. Part of this material has appeared in varying degrees of detail in my 2012 DP book (Vol. II), and my 2022 Abstract DP book. Slides at http://www.mit.edu/~dimitrib/Gen_Bell...