У нас вы можете посмотреть бесплатно EP 75. (수학 공식 없는) 강화 학습 이야기 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
중국 Moonshot의 Kimi K2 Thinking 모델이 GPT-5와 Sonnet 4.5를 넘어서는 벤치마크 성적을 기록하며 포스트 트레이닝 시대의 빠른 모델 발전을 보여주고 있습니다. 이번 영상에서는 강화 학습(RL)의 핵심 개념부터 시작해, on-policy와 off-policy 학습의 차이, 특히 pre-training에서 형성된 모델의 능력이 RL을 통해 어떻게 일반화 가능한 패턴으로 강화되는지, 그리고 정확한 피드백이 왜 중요한지에 대해 설명합니다. 00:00 오프닝: Kimi K2 모델 발표와 강화 학습 00:38 Kimi K2 모델의 특징과 벤치마크 01:14 포스트 트레이닝 시대와 모델 개발 주기 02:55 MoE와 양자화를 통한 모델 경량화 05:43 포스트 트레이닝 레시피의 중요성 07:26 강화 학습(RL)에 대한 새로운 관점 09:30 지도 학습 vs 강화 학습: 자율주행 비유 12:43 강화 학습의 핵심: Credit Assignment Problem 15:10 LLM에 강화 학습이 도입된 이유: RLHF 17:18 SFT의 한계와 할루시네이션 문제 20:15 On-Policy vs. Off-Policy 학습의 개념 23:31 일반화를 위한 모델의 문제 해결 능력 30:28 인터넷 데이터의 한계: 중간 과정의 부재 33:38 프리트레이닝과 탐색 공간의 축소 36:25 LLM의 학습과 Perplexity의 의미 39:17 추론의 분기점: Entropy가 높은 토큰 42:04 집단적 추론의 학습: 인터넷 포럼 사례 44:14 강화 학습을 통한 추론 능력의 발현 49:01 강화 학습은 기존 능력을 꺼내는 것일까? 52:26 성공적인 강화 학습을 위한 조건 57:27 DeepSeek R1의 추론 학습 방식 1:00:05 마무리: On-policy RL과 인생: Jason Wei의 이야기 블로그 포스트: https://aifrontier.kr/ko/episodes/ep75