Скачать с ютуб видео Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным в качестве 4k

У нас вы можете посмотреть бесплатно Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным в формате MP3:

Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru

Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным

Спикер: Александр Новиков, DeepMind, Лондон, Великобритания. Behavior cloning (BC) хорошо справляется с задачей imitation learning так как делает возможным обучение политики оффлайн и без доступа к ревордам, с помощью обучения с учителем на демонстрациях решения целевой задачи. Однако на практике часто доступно лишь небольшое число демонстраций высокого качества (и их не хватает для обучения с помощью BC), но дополнительно имеется большой корпус траекторий смешанного качества которые не могут быть напрямую использованы для BC обучения. Такие траектории могут быть получены с помощью записи демонстраций людей которые решают другую задачу, траекторий простых политик основанных на правилах, или траекторий других RL агентов исполняющихся на той же среде / роботе. В данном докладе я разберу несколько трюков позволяющих эффективно использовать такие данные для обучения оффлайн RL агентов. Основная идея заключается в том, чтобы сначала выучить реворд функцию контрастируя демонстрации и неразмеченные данные, затем аннотировать все данные обученной реворд функцией и наконец обучить агента с помощью оффлайн RL методов. Чтобы не пропустить анонсы следующих научно-технических вебинаров, присоединяйтесь к нам в Telegram: https://t.me/joinchat/GramWh2bMaYUGyP... Сайт организатора: https://www.ntr.ai

Comments