• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

EP 75. (수학 공식 없는) 강화 학습 이야기 скачать в хорошем качестве

EP 75. (수학 공식 없는) 강화 학습 이야기 3 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
EP 75. (수학 공식 없는) 강화 학습 이야기
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: EP 75. (수학 공식 없는) 강화 학습 이야기 в качестве 4k

У нас вы можете посмотреть бесплатно EP 75. (수학 공식 없는) 강화 학습 이야기 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон EP 75. (수학 공식 없는) 강화 학습 이야기 в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



EP 75. (수학 공식 없는) 강화 학습 이야기

중국 Moonshot의 Kimi K2 Thinking 모델이 GPT-5와 Sonnet 4.5를 넘어서는 벤치마크 성적을 기록하며 포스트 트레이닝 시대의 빠른 모델 발전을 보여주고 있습니다. 이번 영상에서는 강화 학습(RL)의 핵심 개념부터 시작해, on-policy와 off-policy 학습의 차이, 특히 pre-training에서 형성된 모델의 능력이 RL을 통해 어떻게 일반화 가능한 패턴으로 강화되는지, 그리고 정확한 피드백이 왜 중요한지에 대해 설명합니다. 00:00 오프닝: Kimi K2 모델 발표와 강화 학습 00:38 Kimi K2 모델의 특징과 벤치마크 01:14 포스트 트레이닝 시대와 모델 개발 주기 02:55 MoE와 양자화를 통한 모델 경량화 05:43 포스트 트레이닝 레시피의 중요성 07:26 강화 학습(RL)에 대한 새로운 관점 09:30 지도 학습 vs 강화 학습: 자율주행 비유 12:43 강화 학습의 핵심: Credit Assignment Problem 15:10 LLM에 강화 학습이 도입된 이유: RLHF 17:18 SFT의 한계와 할루시네이션 문제 20:15 On-Policy vs. Off-Policy 학습의 개념 23:31 일반화를 위한 모델의 문제 해결 능력 30:28 인터넷 데이터의 한계: 중간 과정의 부재 33:38 프리트레이닝과 탐색 공간의 축소 36:25 LLM의 학습과 Perplexity의 의미 39:17 추론의 분기점: Entropy가 높은 토큰 42:04 집단적 추론의 학습: 인터넷 포럼 사례 44:14 강화 학습을 통한 추론 능력의 발현 49:01 강화 학습은 기존 능력을 꺼내는 것일까? 52:26 성공적인 강화 학습을 위한 조건 57:27 DeepSeek R1의 추론 학습 방식 1:00:05 마무리: On-policy RL과 인생: Jason Wei의 이야기 블로그 포스트: https://aifrontier.kr/ko/episodes/ep75

Comments
  • КОЛМАНОВСКИЙ: 5 дней назад
    КОЛМАНОВСКИЙ: "Это просто чудо". Где "проваливается" ИИ, что не так с ядом из кожи лягушки, азарт
    Опубликовано: 5 дней назад
  • Может ли у ИИ появиться сознание? — Семихатов, Анохин 1 месяц назад
    Может ли у ИИ появиться сознание? — Семихатов, Анохин
    Опубликовано: 1 месяц назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев 3 месяца назад
    Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев
    Опубликовано: 3 месяца назад
  • 최태원 3 часа назад
    최태원 "엔비디아에 더 못 줘서 미안"..미중 전쟁의 유일한 무기 '반도체' 잃을까, 'AI 괴물칩'에 한국 운명 달린 진짜 이유 / 교양이를 부탁해 / 비디오머그
    Опубликовано: 3 часа назад
  • Межзвёздный полёт через кротовую нору 10 часов назад
    Межзвёздный полёт через кротовую нору
    Опубликовано: 10 часов назад
  • EP 62. 차세대 LLM 설계 미리 살펴보기: Kimi K2 Technical Report 6 месяцев назад
    EP 62. 차세대 LLM 설계 미리 살펴보기: Kimi K2 Technical Report
    Опубликовано: 6 месяцев назад
  • ЭТОГО НЕ МОЖЕТ БЫТЬ, НО ЭТО РАБОТАЕТ! «Квантовые процессоры» в наших клетках! 2 дня назад
    ЭТОГО НЕ МОЖЕТ БЫТЬ, НО ЭТО РАБОТАЕТ! «Квантовые процессоры» в наших клетках!
    Опубликовано: 2 дня назад
  • 노벨상 양자컴퓨터 이게 진짜입니다 (고려대학교 채은미 교수) 4 месяца назад
    노벨상 양자컴퓨터 이게 진짜입니다 (고려대학교 채은미 교수)
    Опубликовано: 4 месяца назад
  • Способ увидеть невидимое: как создаются суперлинзы из оптических метаматериалов? 5 дней назад
    Способ увидеть невидимое: как создаются суперлинзы из оптических метаматериалов?
    Опубликовано: 5 дней назад
  • 관세 위법판결, 한국에 득인가, 실인가? (박종훈의 지식한방) 1 день назад
    관세 위법판결, 한국에 득인가, 실인가? (박종훈의 지식한방)
    Опубликовано: 1 день назад
  • Где хранится вся эта информация в модели LLM? | DL 7 4 месяца назад
    Где хранится вся эта информация в модели LLM? | DL 7
    Опубликовано: 4 месяца назад
  • EP 85. OpenClaw와 2026년 2월의 신호들 11 дней назад
    EP 85. OpenClaw와 2026년 2월의 신호들
    Опубликовано: 11 дней назад
  • LLM 바닥부터 만들기 (대형언어모델) 1시간 핵심 정리! - #1 사전학습 [홍정모 연구소] 11 месяцев назад
    LLM 바닥부터 만들기 (대형언어모델) 1시간 핵심 정리! - #1 사전학습 [홍정모 연구소]
    Опубликовано: 11 месяцев назад
  • EP 76. 교육과 AI: 한미유치원 설립자 최승준의 생각과 실천 3 месяца назад
    EP 76. 교육과 AI: 한미유치원 설립자 최승준의 생각과 실천
    Опубликовано: 3 месяца назад
  • (1부) 10자년(10의 24제곱) 걸릴 문제를 5분만에 풉니다, 양자컴 미쳤습니다 (고려대학교 채은미 교수) 4 месяца назад
    (1부) 10자년(10의 24제곱) 걸릴 문제를 5분만에 풉니다, 양자컴 미쳤습니다 (고려대학교 채은미 교수)
    Опубликовано: 4 месяца назад
  • Но что такое нейронная сеть? | Глава 1. Глубокое обучение 8 лет назад
    Но что такое нейронная сеть? | Глава 1. Глубокое обучение
    Опубликовано: 8 лет назад
  • ЛИПСИЦ: ИНТЕРВЬЮ МИКИТЕ ГАВРИЛЮКУ 16.02.2026 7 часов назад
    ЛИПСИЦ: ИНТЕРВЬЮ МИКИТЕ ГАВРИЛЮКУ 16.02.2026
    Опубликовано: 7 часов назад
  • Лекция от легенды ИИ в Стэнфорде 2 недели назад
    Лекция от легенды ИИ в Стэнфорде
    Опубликовано: 2 недели назад
  • А что если ВНУТРИ ядра ФОТОНА скрыта ВСЕЛЕННАЯ ?💤Лекция для сна💤 СОН ЗА 5 МИНУТ 12 дней назад
    А что если ВНУТРИ ядра ФОТОНА скрыта ВСЕЛЕННАЯ ?💤Лекция для сна💤 СОН ЗА 5 МИНУТ
    Опубликовано: 12 дней назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5