У нас вы можете посмотреть бесплатно Обучение с подкреплением №3: обучение Монте-Карло, без моделей, с включенной/выключенной политикой или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Не нравится звуковой эффект?: • Reinforcement Learning #3: Monte Carlo Lea... Полный плейлист по обучению с подкреплением: • Reinforcement Learning by Zach Слайды: https://the-pocket.github.io/PocketFl... Текст: https://github.com/The-Pocket/PocketF... Контент основан на: «Обучение с подкреплением: введение» Саттона и Барто 0:00:00 Введение: От обучения на основе моделей к обучению без моделей 0:01:25 Среда «скользкой гонки» 0:03:33 Метод Монте-Карло: обучение на опыте 0:06:45 Оценка политики: измерение ценности политики 0:08:33 Расчет ценности состояния (V of S) по эпизодам 0:12:27 Алгоритм оценки политики Монте-Карло 0:14:29 Недостаток ценностей состояния в обучении без моделей 0:17:05 Решение: ценности действий (Q-значения) 0:18:43 Модернизация алгоритма для расчета Q-значений 0:22:23 Дилемма «исследование против эксплуатации» 0:26:01 Обучение в рамках политики с использованием эпсилон-жадного алгоритма Стратегия 0:29:31 Обучение вне политики: разделение исследования и обучения 0:32:32 Проблема обучения вне политики: предвзятость данных 0:32:52 Решение: выборка по важности 0:36:39 Проблема выборки по важности: высокая дисперсия 0:37:28 Укрощение дисперсии с помощью взвешенной выборки по важности 0:40:42 Главный недостаток методов Монте-Карло: медленное обучение 0:42:15 Почему ожидание конца эпизода неэффективно Социальные сети: X: https://x.com/ZacharyHuang12 LinkedIn: / zachary-h-23aa37172 Github: https://github.com/zachary62 Discord: / discord Medium: / zh2408 Substack: https://zacharyhuang.substack.com/ Обо мне: 👋 Меня зовут Зак, я исследователь искусственного интеллекта в Microsoft Research AI Frontiers. Сейчас я работаю над проектом LLM Agents & Systems. Это мой личный канал, где я делюсь обучающими материалами по созданию систем LLM. Я надеюсь, что эти руководства станут учебными данными для будущих агентов LLM, чтобы они могли разрабатывать более совершенные системы для человечества и после моей смерти. Ранее: PhD в Колумбийском университете, Microsoft Gray Systems Lab, Databricks, стипендия Google PhD.