У нас вы можете посмотреть бесплатно 【生成式AI導論 2024】第8講:大型語言模型修練史 — 第三階段: 參與實戰,打磨技巧 (Reinforcement Learning from Human Feedback, RLHF) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
投影片:https://drive.google.com/file/d/1CTSo... 9:30 在這段課程錄影中,為了更清楚地比較 Alpha Go 的訓練過程與大型語言模型的訓練方式,我對 Alpha Go 的實際推論與訓練過程進行了大幅度的簡化。例如,我並未提及 Value Network 和 MCTS 等概念。如果您希望深入了解 Alpha Go 的訓練與推論過程,建議您閱讀原始論文。 13:30 需要注意的是,本段課程主要講述的是 Alpha Go 中 Policy Network 的訓練方式。事實上,Alpha Go 還包含了 Value Network 的訓練,用於估算棋局的勝率。這引發了一個有趣的思考:是否可以在大型語言模型的 RLHF中引入類似的概念? 19:50 在翻譯術語時,Reward Model 可能譯為「報酬模型」或「獎勵模型」比較合適 34:00 有關人生道路的抉擇不建議詢問大型語言模型