У нас вы можете посмотреть бесплатно 开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
付费频道订阅: / @storytellerfan 文字版地址:https://lukefan.com/2025/04/09/%e5%bc... 家人们!!!这绝对是我今年吃过最魔幻的AI圈大瓜!!!Meta家的Llama4竟然被程序员扒出作弊实锤了!!!(瑟瑟发抖.jpg) 事情是这样的👇👇👇 1️⃣【作弊双连暴击】 开源版vs测试版根本不是同一个模型!(瞳孔地震) 内部员工爆料偷偷用真题库训练(这不就是高考泄题吗!!) 2️⃣【程序员集体暴走】 编程测试效果直接打脸,跑分高到离谱实际用起来像智障(摔键盘.gif) 沃顿教授亲自下场开撕:这波优化痕迹太明显了!!! 3️⃣【Meta花式甩锅】 AI负责人疯狂否认三连:我没有!不可能!都是发布太赶了!(甩锅姿势满分) 程序员冷笑:过几天要发"稳定版"?这不就是连夜改答案吗?! 💥吃瓜重点: ✔️测试数据混进训练集=考试前偷试卷 ✔️Meta技术报告至今不敢发(懂的都懂) ✔️内部大佬提前申请离职(这时间点太微妙) 📢建议所有搞AI的宝子: 1️⃣暂时别用Llama4做项目(会变得不幸) 2️⃣蹲一个下周的"稳定版"(坐等二次打脸) 3️⃣转推文给程序员朋友避雷(救人一命胜造七级浮屠) 现在整个硅谷都在等Meta的回应...( 开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁? Meta 最新发布的 AI大模型 Llama 4 正面临严重的 作弊 质疑,尽管其公布的 跑分 数据亮眼,但 开源 版本在实际应用中,尤其是在 编程 任务上表现不佳,引发用户普遍不满。核心指控包括 Meta 可能进行了 数据作弊,将 测试数据 混入了 训练数据 以拔高分数,以及发布的 开源 版本与内部用于 跑分 的测试版本存在显著差异。更有匿名内部 爆料 指出,因不齿此行为,有员工拒绝签署 技术报告 并辞职。外部专家也认为 Llama 4 存在对基准测试 过度调整 的痕迹。对此,Meta 官方紧急 辟谣,否认 数据作弊,将性能问题归咎于为追求 快速发布 而导致的模型 不稳定,并承诺数日内发布稳定实现。这场风波不仅让 Meta 的声誉蒙上阴影,也促使业界反思 AI大模型 的评测标准与发布流程,Llama 4 最终能否自证清白,全球开发者正拭目以待 Meta 后续发布的技术细节与新版本表现。 00:00:00 开场:Llama 4 作弊风波概述 00:00:13 Llama 4 发布初期的反响与质疑 00:00:42 为何编程能力成为评测焦点 00:01:17 与国内模型对比及Meta地位的重要性 00:01:54 两项核心质疑:版本不一致与数据作弊 00:03:09 Llama 4 版本构成与作弊可能性分析 00:04:03 内部匿名爆料与高管离职传闻 00:05:23 外部专家质疑:针对基准过度优化 00:05:58 Meta 官方回应:否认作弊并归因于发布仓促 00:07:07 解读 Meta 回应:“不稳定”说辞与甩锅 00:08:08 总结作弊的三种可能性 00:09:12 如何验证 Meta 的说法:重新跑分测试 00:10:03 验证关键:未来几天内发布稳定版本 00:10:48 验证的持续性与独立测试的重要性 00:11:38 当前证据倾向:已发布版本或为作弊版本 00:12:36 Meta 的补救措施:发布文档与新版本 00:13:28 发布新版本的技术挑战与时间压力 00:14:28 Meta 的未来计划与技术方向 00:15:43 结论:让子弹再飞一会儿,作弊可能性高 00:16:06 事件影响:行业将更谨慎对待跑分与发布 00:16:48 结语:科学研究需要时间及频道互动 Meta近期发布的Llama4大模型深陷作弊争议,主要围绕三大核心质疑: *1. 评测与开源版本不一致* Llama4在基准测试中宣称高分,但用户实测发现其生成效果(尤其是编程能力)与宣传差距较大。质疑者指出,Meta可能使用未公开的「测试专用版本」或更高参数的内部模型跑分,但开源的中型(400B)和小型(约100B)版本实为蒸馏产物,性能明显弱于测试数据。 *2. 数据作弊指控* 匿名爆料者(自称Meta前员工)称,团队将测试题库数据混入训练集,导致模型「背真题」而非真实能力提升。沃顿商学院教授也指出,Llama4对基准测试存在「过度优化」痕迹,技术突破存疑。Meta AI负责人埃哈迈德否认指控,称问题源于「快速发布导致的稳定性不足」,并承诺几天内发布修复版本。 *3. 技术透明度缺失* 与Llama系列前作不同,Llama4未附技术论文或白皮书,且匿名爆料者称「技术报告因拒签而无法发布」。Meta仅通过博客声明回应,进一步加剧外界怀疑。 *验证与影响* **跑分复现**:若当前开源版本无法复现原测试成绩,则坐实版本不一致或数据作弊。 **更新版本测试**:Meta承诺的「稳定版」若能在短期内达到宣称分数,可部分澄清质疑;反之则坐实作弊。 **行业连锁反应**:事件可能迫使后续模型(如千问3.0)更严格规避「刷分」行为,行业评测标准或趋谨慎。 *Meta的危机处理* 公司试图通过「投入10倍算力加速迭代」「2025年推出强化版模型」挽回声誉,但大模型训练周期长、结果不可控的特性使快速补救难度极高。若作弊属实,涉事团队恐面临学术信誉崩盘与人事动荡。 *核心矛盾* Meta被指为抢占市场(如赶在千问3发布前)仓促推出未充分验证的模型,导致「萝卜快了不洗泥」。事件折射出AI行业「技术严谨性」与「商业竞争」的冲突,后续发展将考验Meta的数据透明度与技术验证能力。 (总结以「让子弹再飞一会儿」作结,呼应原文对实证的呼吁) 欢迎加入Discord讨论服务器: / discord