У нас вы можете посмотреть бесплатно 2.5× 빠름·0.3× 메모리! GaussianLSS 핵심 정리 Toward Real-world BEV Perception 논문 리뷰! или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
오늘 소개드릴 논문은 CVPR 2025에 억셉된 Toward Real-world BEV Perception라는 제목의 논문으로, 요즘 핫한 자율주행에서 Bird’s-Eye View(BEV) 인지 기술과 실시간 처리 효율성에 관심 있는 분들은 한 번쯤 보시면 좋을 것 같습니다. 자율주행차의 ‘위에서 내려다보는 시야(BEV)’를 얻으려면 여러 대의 카메라 영상을 3D로 합쳐야 하는데, 이를 위해 각 픽셀의 정확한 깊이(depth) 정보가 필요합니다. 하지만 실제 도로 환경에서는 깊이를 완벽히 예측하기 어렵고, 계산량도 매우 커서 실시간 처리에 부담이 큽니다. 이 논문은 픽셀별 깊이 예측의 불확실성(uncertainty)을 함께 학습해, 깊이가 불확실한 부분까지 부드럽게 퍼뜨려 표현하고, 이를 가우시안 스플래팅(Gaussian Splatting) 기법으로 빠르고 메모리 효율적으로 BEV 특징으로 합성하는 방법을 제안합니다. 기존 BEV 인지 연구들은 주로 두 가지 접근을 사용해 왔습니다. 첫째, 2D 이미지를 직접 3D로 펼치는 Lift-Splat-Shoot(LSS) 계열은 깊이를 예측해 포인트를 투영하지만, 깊이 예측 오차가 BEV 표현의 왜곡으로 직결되고, 픽셀마다 하나의 깊이 값만 활용해 물체 경계를 포착하기 어렵다는 한계를 안고 있었습니다. 둘째, 3D 그리드를 미리 정의해 이미지를 투영하는 방식은 정확도가 높지만, 3D 볼륨 연산에 드는 계산 비용과 메모리 사용량이 너무 커 실시간 자율주행에는 부적합했습니다 본 논문이 제안하는 GaussianLSS는 2D 언프로젝션 기반의 LSS 구조를 바탕으로 깊이 불확실성(depth uncertainty)을 수치적으로 모델링하고, 그 분포를 3D 가우시안(평균과 공분산)으로 변환한 뒤 가우시안 스플래팅으로 BEV 특성을 생성하는 최초의 방법입니다. 구체적으로, 픽셀별 깊이 분포의 평균(µ)과 분산(σ²)을 계산해 [µ – kσ, µ + kσ] 구간을 정의하고, 이 구간을 3D 공간의 타원체(ellipsoid)로 표현합니다. 이렇게 생성된 다수의 가우시안 분포를 다중 해상도(Multi-Scale)로 렌더링해 계층적 공간 표현을 얻고, Triton 커널 최적화를 거쳐 기존 방식 대비 2.5× 빠른 추론 속도와 0.3× 적은 메모리 사용량을 달성하면서도, nuScenes 차량 BEV 세분화에서 투영 기반 방법과 오차 0.4% 이내의 경쟁력 있는 성능을 보였습니다