У нас вы можете посмотреть бесплатно 로봇 액션 라벨 없이 학습한다? LAPA 논문 한 방 정리 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
오늘 소개드릴 논문은 Latent Action Pretraining from Videos (LAPA) 입니다. 이 논문은 로봇 학습에서 항상 문제로 지적되던 “액션 라벨이 없는 대규모 영상 데이터를 어떻게 쓸 것인가”라는 질문에 아주 깔끔한 해답을 제시합니다. 로봇 데이터 수집 비용과 확장성에 관심 있는 분들이라면 꼭 한 번 보시면 좋을 논문입니다 기존 Vision-Language-Action(VLA) 모델들은 대부분 사람의 원격조작(teleoperation)으로 수집한 로봇 액션 라벨에 강하게 의존해 왔습니다. 이 방식은 성능은 좋지만, 데이터 수집 비용이 매우 크고 로봇 종류가 바뀌면 다시 데이터를 모아야 하는 문제가 있습니다. 반면 인터넷에는 사람이 물건을 집고 옮기고 조작하는 영상이 넘쳐나지만, 이 영상들에는 로봇이 바로 쓸 수 있는 액션 라벨이 없습니다. LAPA의 핵심 아이디어는 “액션을 직접 주지 말고, 영상 사이의 변화 자체를 액션으로 만들자”는 것입니다. 먼저 두 장의 연속된 영상 프레임 사이 변화를 VQ-VAE 기반 모델로 압축해 이산적인 ‘잠재 액션(latent action)’ 토큰을 학습합니다. 이렇게 하면 “집는다”, “옮긴다”, “카메라가 내려간다” 같은 동작이 자연스럽게 코드북 형태로 정리됩니다. 그 다음 단계에서는 VLM이 이미지와 언어 지시를 보고 이 잠재 액션을 예측하도록 사전학습합니다. 마지막으로, 아주 소량의 로봇 데이터만 사용해 이 잠재 액션을 실제 로봇 제어 신호로 매핑합니다. 이 방식의 강점은 명확합니다. 액션 라벨 없이도 인터넷 규모의 인간 조작 영상을 그대로 활용할 수 있고, 특정 로봇의 관절 구조에 과적합되지 않아 다른 로봇으로의 전이 성능이 매우 좋습니다. 실제 실험에서도 LAPA는 로봇 액션 라벨을 사용해 사전학습한 기존 VLA 모델(OpenVLA)보다 더 높은 성공률을 보였고, 학습 비용은 30배 이상 효율적이었습니다. 심지어 사람 영상만으로 사전학습한 경우에도, 로봇 데이터로 학습한 모델을 능가하는 결과를 보여줍니다. 정리하면 이 논문은 액션 없는 영상 → 잠재 액션 → 로봇 제어라는 새로운 학습 경로를 제시했고, 로봇 파운데이션 모델을 웹 스케일 데이터로 확장할 수 있는 현실적인 가능성을 보여줍니다.