У нас вы можете посмотреть бесплатно 1. RL: Введение в RL/ Reinforcement Learning/ Обучение с подкреплением 2023/09/13 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Эта вводная лекция основывается на основах RL и рассматривает метод кросс-энтропии — простой, но довольно эффективный метод, применимый во многих задачах.. Ключевые темы, рассматриваемые в лекции: 1. Введение в RL: ◦ Обучение с подкреплением как парадигма, где ключевой элемент — награда (награда) , поощряющая или штрафующая модель.. ◦ Взаимодействие двух сущностей: Агента и Среды (Окружающая среда) , в координатной по времени схеме.. ◦ Основные термины: Состояние (Состояние) , Действие (Действие) , Награда (Награда).. ◦ Цель Агента: максимизировать свою общую награду в процессе взаимодействия.. ◦ Обсуждение коэффициента дисконтирования (Гамма) , который регулирует, действительно важны будущие награды для Агента. 2. Формализация и примеры: ◦ Примеры простых задач: Многорукий бандит (где состояние можно считать вырожденным), Лабиринт (где штраф -1 за каждый шаг стимулирует быстрое прохождение), Мир Замерзшего Озера (пример стохастической, то есть вероятностной, среды). ◦ Математическая строгость: Введение Марковского процесса принятия решений (MDP) , который полностью описывает задачу RL через шесть сущностей (пространство происходящего, действия, Функция возможности переключения). Функция начального состояния Функция награды, коэффициент дисконтированияγ. ◦ Рассмотрение MDP с множеством конечных состояний ( S_F ) и их эквивалентность в классической постановке.. ◦ Сложные примеры: Игры Atari (Breakout) и задача CartPole. ◦ Интерфейс для работы: функции просмотра и в среде OpenAI Gym.resetstep. 3. Политика и алгоритм Кросс-Энтропии (Метод перекрестной энтропии): ◦ Политика ( \pi ) — это функция, которую мы обучаем, преобразующая состояние в действие (может быть детерминированной или стохастической). ◦ Задача RL сводится к политике поиска, которая максимизирует математическое ожидание суммы награды.. ◦ Подход к решению (для границ пространства/действия): сохранение задачи как конечной оптимизации стратегии стратегии.. ◦ Алгоритм Кросс-Энтропии состоит из итераций, включающих наблюдения политики (Оценка политики) и политики улучшения (Улучшение политики). ◦ В процессе улучшения использовались квантилы (или перцентили) для выбора элитных траекторий (тех, за которые была получена наибольшая награда). ◦ Обновление политики основано на периодических действиях, которые привели к элитным траекториям.. ◦ Обсуждение недостатков алгоритма (например, слабая эксплуатация неэлитных сессий, проблема недостаточного исследования (разведки)). ◦ Трюки для улучшения (например, сглаживание по Лапласу и сглаживание политики). ◦ Обсуждение методов борьбы со стохастической политикой путем определения политики на этапе сэмплирования.