У нас вы можете посмотреть бесплатно [AI 논문 26년 03월] BandPO: LLM 강화학습의 탐험 한계를 극복하는 동적 클리핑 기술 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
논문 제목: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning 논문 링크: https://arxiv.org/abs/2603.04918 안녕하세요. 대규모 언어 모델(LLM)의 강화학습 및 정렬 과정을 더욱 안정적이고 효과적으로 만들기 위해 설계된 BandPO(Band-constrained Policy Optimization)라는 새로운 기술을 소개해 드립니다. 이 논문은 LLM 사후 학습의 표준인 PPO나 GRPO에서 사용하는 '확률 비율 클리핑(Ratio Clipping)' 방식의 구조적 병목 현상을 해결하는 방법을 다루고 있습니다. 기존 방식은 모든 상황에 고정된 클리핑 범위를 적용하여, 확률이 낮은 유망한 전략(tail strategies)이 충분히 학습되지 못하고 모델의 다양성(엔트로피)이 급격히 사라지는 문제가 있었는데, 이를 해결하고자 개발된 것이 바로 BandPO입니다. BandPO의 주요 특징과 장점은 다음과 같습니다. • 확률 인지형 동적 탐험: 'Band'라는 통합 연산자를 도입하여 신뢰 영역(Trust Region)을 각 토큰의 확률에 따라 변하는 동적 클리핑 구간으로 변환했습니다 . 이를 통해 확률이 낮은 행동에 대해서도 충분한 업데이트 마진을 제공함으로써, 초기 학습 단계에서 유익한 전략이 조기에 억제되는 것을 막고 탐험의 효율을 극대화했습니다. • 수학적 엄밀성을 갖춘 최적화: f-발산(f-divergence) 이론과 볼록 최적화(Convex Optimization)를 기반으로 클리핑 경계를 도출했습니다. 덕분에 확률 심플렉스(Simplex)의 기하학적 일관성을 엄격히 유지하면서도, 단일 매개변수(δ)만으로 학습 안정성을 확보하여 복잡한 하이퍼파라미터 튜닝 과정을 크게 단순화했습니다. • 검증된 추론 성능 향상: Qwen2.5 및 Llama3 등 다양한 규모의 모델로 실험한 결과, 기존 GRPO 방식보다 일관되게 우수한 성능을 기록했습니다. 특히 AMC, AIME와 같은 고난도 수학 벤치마크에서 기존 방식 대비 더 높은 정확도를 달성하며, 모델의 논리적 추론 능력을 강화하는 효과를 입증했습니다. 이 연구는 LLM이 복잡한 추론 과정을 학습할 때 발생할 수 있는 '탐험의 병목'을 이론적으로 규명하고, 이를 해결할 수 있는 기하학적 최적화 방법을 제시하고 있습니다. 이 기술은 앞으로 더 정교하고 사고 능력이 뛰어난 인공지능 모델을 만드는 데 중요한 토대가 될 것으로 보입니다.