У нас вы можете посмотреть бесплатно 고해상도, 속도까지 챙긴 SparseViT: 비전 Transformer의 새 해법 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
안녕하세요 딥러닝 논문읽기 모임입니다! 오늘 소개드릴 논문은 SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer입니다. 고해상도 이미지 처리에서 계산 효율성과 실시간 성능 최적화에 관심 있는 분들은 한 번쯤 보시면 좋을 것 같습니다. 고해상도 이미지는 작은 물체나 세밀한 특징을 인식하는 데 필수적이지만, 이미지 크기가 커질수록 연산량도 선형적으로 늘어나기 때문에 실제로는 계산 자원이 부족해지는 문제가 생깁니다. 보통은 이미지를 강제로 줄여서 처리하지만, 이렇게 하면 작은 물체가 뭉개지거나 중요한 디테일이 사라집니다. SparseViT의 핵심 아이디어는 “모든 픽셀이 중요한 건 아니니, 덜 중요한 부분은 과감히 계산을 생략하자”는 것입니다. 즉, 고해상도를 유지하면서도 정보가 별로 없는 배경 영역은 건너뛰고, 객체가 있는 창(window)만 집중적으로 연산하는 방식입니다. SparseViT는 Swin Transformer를 기반으로, 윈도우 단위(window-wise) 로 연산을 수행하도록 변형하여 활성화 프루닝(activation pruning)을 실제 속도 향상으로 연결했습니다. 각 윈도우의 L2 활성값 크기를 중요도로 정의해, 점수가 높은 창만 Self-Attention, FFN, LN 연산을 수행하고 나머지는 간단히 복제하여 정보 손실을 최소화합니다. 또한, 층마다 동일한 프루닝 비율을 적용하는 대신 혼합 희소성(mixed-sparsity) 전략을 사용했습니다. 계산량이 많은 초기 레이어에서는 더 과감히 프루닝하고, 출력과 가까운 후반부 레이어는 덜 프루닝하는 식으로 비율을 달리 적용해 효율성과 정확도를 동시에 잡았습니다. 이를 위해 진화적 탐색(evolutionary search) 과 희소성 적응(sparsity-aware adaptation) 기법을 도입해 최적의 레이어별 프루닝 구성을 자동으로 찾았습니다 SparseViT는 단순히 이미지를 줄여 성능을 희생하는 대신, 중요한 창만 남기고 불필요한 연산을 제거하는 고해상도 효율화 전략을 제시합니다. 덕분에 실제 GPU에서 1.3~1.5× 속도 향상을 보이면서도 정확도를 잃지 않았고, 특히 작은 객체 검출 같은 세밀한 비전 과제에 효과적인 새로운 패러다임을 열었다고 볼 수 있습니다. 논문리뷰를 위해 이미지처리팀 신혜주님이 자세한 리뷰 도와주셨습니다!