У нас вы можете посмотреть бесплатно VLA + RL: прорыв, сочетающий модели действий «зрение-язык» с обучением с подкреплением или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Модели «зрение-язык-действие» (VLA), объединяющие зрение, язык и действия в единую связную структуру, определяют передовые позиции в области искусственного интеллекта и роботизированного обучения. VLA обычно используют кодер зрительного восприятия и языка (например, PaLM-E или PaliGemma) и декодер действий для преобразования визуальных наблюдений и инструкций естественного языка непосредственно в непрерывные действия робота. Их преимущество заключается в использовании массивного интернет-предобучения, что позволяет им демонстрировать широкое обобщение и безупречную производительность при выполнении новых задач. Например, RT-2 достигла 62% успеха в задачах, не связанных с распределением, по сравнению с 32% у его предшественника RT-**Ловушка имитационного обучения**. Однако VLA традиционно полагаются на имитирующее обучение (клонирование поведения), что вынуждает их ограничиваться распределением своих обучающих данных. При развертывании в реальном мире незначительные изменения в окружающей среде (например, изменение освещения или положения объекта) могут привести к усугублению собственных ошибок робота, что приводит к каскадным отказам — фундаментальному ограничению, известному как проблема смещения распределения. *Улучшение обучения с подкреплением: автономное совершенствование* Обучение с подкреплением (RL) предоставляет необходимое решение, позволяя агентам обучаться методом проб и ошибок, получая сигналы вознаграждения за прогресс в достижении цели. Эта возможность автономного совершенствования крайне важна для VLA, чтобы выйти за рамки данных предварительной подготовки и достичь устойчивой производительности в реальном мире. Эта конвергенция привела к появлению нескольких сложных парадигм интеграции: *1. Автономное обучение с подкреплением с моделями реального мира:* Чтобы преодолеть проблемы, связанные с расходами и безопасностью, характерные для обучения с подкреплением в реальном мире, такие подходы, как *VLA-RFT* (тонкая настройка подкрепления «зрение-язык-действие») и **World-Env**, используют изученные модели мира в качестве безопасных виртуальных симуляторов. VLA-RFT обучает политику VLA с помощью симулятора, созданного на основе данных офлайн-робота, используя плотные, проверенные вознаграждения на уровне траектории, основанные на сравнении прогнозируемых визуальных траекторий с изображениями целей с использованием метрик расстояния L1 и LPIPS. Такой подход значительно снижает требования к выборке, превосходя контролируемые базовые уровни менее чем за 400 шагов тонкой настройки. *2. Онлайн-обучение с подкреплением и тонкая настройка в реальных условиях:* Для непрерывного совершенствования и получения специализированных знаний критически важна онлайн-тонкая настройка с подкреплением непосредственно на оборудовании. *Recap* объединяет три сигнала — демонстрации, экспертные корректировки и автономный опыт — для значительного повышения надежности политики. При применении к таким моделям, как $\pi^*_0.6$, Recap удвоил или утроил производительность (количество успешных завершений задач в час) при выполнении сложных задач, таких как приготовление эспрессо и складывание белья. Этот успех обусловлен экспертными корректировками, нацеленными на фактические виды сбоев, возникающие в состояниях, не связанных с распределением. Кроме того, *Generative Value Learning (GVL)* использует семантическое понимание предварительно обученных VLM для точного прогнозирования хода выполнения задач среди сотен задач робота, выступая в качестве универсального оценщика значений для управления RL. *3. Инновации в генерации действий:* Эффективность систем VLA+RL также связана с представлением действий. Хотя многие используют дискретную токенизацию (например, в RT-2), появились более быстрые и точные методы: *FAST-токенизатор* использует дискретное косинусное преобразование (DCT) для достижения 10-кратного сжатия и 5-кратного ускорения обучения, обеспечивая высокую гибкость. *Flow Matching* обучается детерминированному векторному полю, обеспечивая высокое качество и скорость вывода до 10 раз выше, чем у диффузионных моделей, используемых в модели $\pi_0$. *Обучение с подкреплением на основе диффузии* используется для генерации оптимальных, плавных синтетических данных для обучения. При использовании для обучения VLA успешность составила 81,9% в тесте LIBERO, что превзошло результаты, полученные при демонстрации с участием людей. *Влияние:* Интеграция VLA и обучения с подкреплением обеспечивает фундаментальный прогресс, сочетая обобщающую силу базовых моделей с автономным совершенствованием. Используя большие мультимодальные наборы данных, такие как *Open X-Embodiment Dataset* (охватывающий 22 варианта робота), эти системы могут добиться положительного переноса и высокой надежности. Несмотря на сохраняющиеся проблемы, такие как задержка вывода и проблемы сброса в реальном мире, эта комбинированная парадигма быстро становится доминирующей для создания практичных, адаптивных роботизированных агент...