У нас вы можете посмотреть бесплатно Как обучать многоагентных взаимодействующих агентов с помощью обучения с подкреплением (объяснени... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом видео мы обучаем агентов многоагентного навигационного ИИ совместному прохождению сложных полос препятствий. Мы изучили основы создания настраиваемых сред обучения с подкреплением, как проектировать пространства наблюдения, пространства действий и пространства вознаграждения, а также основы локальных систем координат (LCS) в агентных системах. Затем мы поговорим о методах Actor Critic, таких как A2C и PPO, и о том, как обучать агентов с их помощью. Мы обсудим два алгоритма многоагентного обучения с подкреплением: независимый PPO (I-PPO) и более продвинутый многоагентный PPO (MA-PPO). MA-PPO основан на MA-DDPG, методе обучения с централизованным обучением и децентрализованным выполнением (CTDE). Мы узнаем, почему методы CTDE эффективны при обучении многоагентных сред обучения с подкреплением и почему они могут способствовать развитию кооперативного и эмерджентного поведения у агентов с подкреплением. Репозиторий GitHub: https://github.com/avbiswas/navigatio... Более подробное видео с объяснением кода доступно для подписчиков Patreon: / multi-agent-rl-145270524 Подпишитесь на меня в Twitter: https://x.com/neural_avb Чтобы присоединиться к нам на Patreon, посетите: / neuralbreakdownwithavb Подписчики получают доступ ко всему, что происходит за кулисами создания моих видео, включая код. Кроме того, это существенно поддерживает канал и помогает оплачивать мои счета. #машинноеобучение #обучениесподкреплением #программирование #devlog Соответствующие видео: Введение в обучение с подкреплением - • A crash course on Reinforcement Learning T... GRPO и рассуждения LLM - • Fine tuning language models to THINK with ... Плейлист RL - • Reinforcement Learning Полезные статьи: Введение в централизованное обучение для децентрализованного выполнения в кооперативном многоагентном обучении с подкреплением (https://arxiv.org/abs/2409.03052) Статья PPO (https://arxiv.org/pdf/1707.06347) MARL в Pytorch (https://docs.pytorch.org/rl/main/tuto...) MA-DDPG (https://arxiv.org/abs/1706.02275) Временные метки: 0:00 - Введение 2:17 - Создание сред обучения с подкреплением 6:23 - Локальные системы координат 8:30 - Награды 10:24 - Методы критики акторов 12:36 - Обучение одноагентного обучения с подкреплением 13:38 - Независимый PPO 15:40 - Нестационарные среды 16:40 - Централизованное обучение с децентрализованным выполнением (CTDE) 17:36 - Многоагентный PPO (MA-PPO) 19:25 - Результаты!