У нас вы можете посмотреть бесплатно Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Спикер: Александр Новиков, DeepMind, Лондон, Великобритания. Behavior cloning (BC) хорошо справляется с задачей imitation learning так как делает возможным обучение политики оффлайн и без доступа к ревордам, с помощью обучения с учителем на демонстрациях решения целевой задачи. Однако на практике часто доступно лишь небольшое число демонстраций высокого качества (и их не хватает для обучения с помощью BC), но дополнительно имеется большой корпус траекторий смешанного качества которые не могут быть напрямую использованы для BC обучения. Такие траектории могут быть получены с помощью записи демонстраций людей которые решают другую задачу, траекторий простых политик основанных на правилах, или траекторий других RL агентов исполняющихся на той же среде / роботе. В данном докладе я разберу несколько трюков позволяющих эффективно использовать такие данные для обучения оффлайн RL агентов. Основная идея заключается в том, чтобы сначала выучить реворд функцию контрастируя демонстрации и неразмеченные данные, затем аннотировать все данные обученной реворд функцией и наконец обучить агента с помощью оффлайн RL методов. Чтобы не пропустить анонсы следующих научно-технических вебинаров, присоединяйтесь к нам в Telegram: https://t.me/joinchat/GramWh2bMaYUGyP... Сайт организатора: https://www.ntr.ai