У нас вы можете посмотреть бесплатно OpenVLA: роботизированный мозг с открытым исходным кодом, превосходящий Google RT-2. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом видео мы рассматриваем статью «OpenVLA: модель с открытым исходным кодом для обработки изображений, языка и действий», одну из важнейших работ по робототехнике 2024 года. Мы разбираем, что такое OpenVLA, как она объединяет зрение, язык и действия, и почему открытая модель с 7 миллиардами данных может превзойти модель Google RT-2-X с 55 миллиардами данных в реальных задачах робототехники. Вы увидите, как OpenVLA построена на основе Llama 2, SigLIP и DINOv2, как она обучается на 970 тысячах эпизодов робототехники из набора данных Open X-Embodiment, и почему такие проектные решения, как токенизация действий, тонкая настройка кодировщика изображений и грамотная обработка данных, имеют такое большое значение. Мы также сравниваем её с предыдущими подходами, такими как RT-1/RT-2, Octo и Diffusion Policy, и обсуждаем тонкую настройку, LoRA и квантование на потребительских графических процессорах. Оригинальная статья на arXiv: https://arxiv.org/abs/2406.09246 Код и модели OpenVLA на GitHub / страница проекта: https://openvla.github.io Если вам понравился этот разбор, не забудьте поставить лайк видео, подписаться на канал и написать в комментариях, какую статью вы хотите увидеть следующей! #робототехника #embodiedai #OpenVLA #vla #googledeepmind