У нас вы можете посмотреть бесплатно 斯坦福课程「CS146S现代软件开发者」W1D4:LLM 如何从词元学会思考 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
本期视频深入解读斯坦福大学 CS146S「现代软件开发者」课程第一周第三天的核心内容。我们不再只是泛泛而谈 AI 的未来,而是要拆解这个“黑盒”,从开发者的视角看透 Large Language Model (LLM) 的本质。 AI 究竟是如何从海量的互联网垃圾信息中,“炼”出一个像 ChatGPT 这样的大脑?为什么它有时会一本正经地胡说八道?所谓的“思维链”(Chain of Thought)又是如何让 AI 学会自我反思的? 我们通过三个关键阶段带你走完 AI 的“养成之路”,并探讨人类在 AI 时代真正的核心竞争力。 🗝️ 核心内容要点 1. AI 的“食物”:从垃圾山到数字图书馆 (Pre-training) 漏斗理论:互联网数据(Common Crawl)就像一座包含广告、恶意代码和混乱信息的垃圾山。 清洗与过滤:预训练的第一步是极其严苛的数据清洗(去重、去黑名单、去广告),最终只保留高质量的文本,建立一座有序的“数字图书馆”。 知识压缩:AI 并不是在记忆这些数据,而是将人类海量的知识“压缩”进了神经网络的参数中。 2. AI 的语言:词元化 (Tokenization) 与数学翻译 机器不懂中文:在 AI 眼里没有“你好”或“Hello”,只有一串串数字。 切分机制:Tokenization 将文本切碎成最小单位(Token)。 微妙的差异:空格的有无、大小写的区别,都会被转化成完全不同的数字编号,这解释了为什么有时候加个空格,AI 的回答就变了。 3. AI 的本能:概率预测 (Next Token Prediction) 概率分布:LLM 的核心引擎只做一件事——根据上文,预测下一个最可能出现的 Token。 基础模型 (Base Model):刚预训练完的模型像个“高智商书呆子”或“复读机”。你问它“2+2=?”,它可能不会回答“4”,而是接着出题“2+3=?”,因为它以为你在做题库接龙。 4. AI 的规训:监督微调 (SFT) 与“说人话” 学会指令:为了让模型变成有用的助手,必须投喂高质量的问答对(Golden Samples)。 模仿的代价:这一阶段的模型在努力模仿人类专家的语气。 幻觉的根源:因为“模仿能力”太强,当遇到不知道的问题时,AI 会倾向于用自信的语气编造答案(一本正经地胡说八道),因为它学到的指令是“自信地回答”。 5. AI 的进化:强化学习 (RL) 与思维链 (CoT) 超越模仿:要让 AI 解决未见过的问题,不能只靠背诵,要靠“试错”。 强化学习:类似于 AlphaGo,让模型生成多个答案,通过奖励机制告诉它哪个更好,从而优化策略。 思维链 (Chain of Thought):让 AI 学会“打草稿”和“自言自语”。通过分步骤推理(例如计算过程),AI 获得了自我检查和逻辑纠错的能力,这是通向“推理模型”(如 o1)的关键。 6. 现实认知:瑞士奶酪模型与人类品味 能力漏洞:现在的 AI 像一块多孔的“瑞士奶酪”。它可能写得出莎士比亚风格的十四行诗,却数不清单词里有几个 'r'。了解这些盲区是使用它的前提。 人类的新角色:我们不再是单纯的创作者,而是**“策展人”和“主编”**。 Taste (品味):在 AI 能生成无限内容的时代,你能否判断“什么是好的结果”,能否通过精准的提示词引导 AI 产出高标准内容,将是你不可替代的核心竞争力。