OpenAI塌房!Scaling law原作曝bug 万亿算力白烧

2026-07-05 08:26:14 · chineseheadlinenews.com · 来源: 新智元

DeepMind研究员深夜爆料:OpenAI的Scaling Law原始论文竟有致命bug!全球AI白白烧掉万亿算力,GPT-3其实严重“虚胖”。

OpenAI误导了整个AI圈好几年!

过去五年,整个AI行业都被Scaling Law推着往前冲。

奥特曼坚信AGI的底气就来自这条曲线。

现在,有人站出来说:这条曲线,一开始就错了。

不是事后诸葛。说这话的,是当年就在OpenAI做大模型优化的研究员Diogo Almeida。

刚刚,他发出一篇博客,标题冷得发指——《Scaling Laws, Honestly》。

开头一句直接把话说死:最初那版scaling law是错的,因为存在一个bug。

OpenAI塌房!Scaling law原作曝bug 万亿算力白烧

传送门:https://www.completeskeptic.com/p/scaling-laws-honestly

DeepMind那位以扩散模型封神的Sander Dieleman,转头就在推特上把它顶了上去,说这是一段有意思的LLM往事:

原始scaling law因为一个bug而错了,大概率害得业界在一堆“体量过大、训练不足”的模型上,白白烧掉了海量算力。



一个bug,烧掉两年。

当bug被撕开,我们看到的,不仅是算力的黑洞,更是一条被语言本身重塑的、远比想象中更深刻的智能边界。



Scaling Law竟是LLM版“地心说”

2020年,OpenAI给出结论:在固定的算力预算下,你应该优先把模型做大,而不是拿更多数据去喂它。

用公式说,最优参数量正比于算力的0.73次方——参数,是那个更该猛冲的变量。



这句话,直接定义了GPT-3那一代的长相。堆参数。往死里堆。1750亿。

它告诉全世界的开发者:别问,问就是堆参数;只要你把模型做得足够大,神迹就会发生。

两年后,DeepMind甩出Chinchilla,把这个结论掀了个底朝天:模型和数据,应该差不多同等重要地一起放大,大约每个参数配20个token才划算。



他们训了一个700亿参数的Chinchilla,喂了1.4万亿token——体量不到GPT-3的一半,数据是它的四倍多。

结果,同样的算力预算,全面反超2800亿参数、却只喂了3000亿token的Gopher。

翻译成人话:同样一笔钱,一个把它养成了"虚胖"的壮汉,一个把它练成了精瘦的拳手。

拖更三年,北大校友翁荔深入探讨了后续研究中对两者差异的主流解释,即差异在于他们计算参数总数的方式。



而这还没完。就连“正确”的那个Chinchilla,自己也不干净。

2024年,Besiroglu等人把Chinchilla原文的数据点扒出来重跑,发现它自己那套拟合里也藏着bug:

优化器里的loss尺度设得过高,把Huber损失按样本求了平均、而不是求和,导致拟合过早终止。



纠正bug的论文,自己带着另一个bug。

到这儿,那句被无数人挂在嘴边的“第一性原理”,忽然有点站不住了。

所谓Scaling Law,从来就不是牛顿三定律那种铁打的物理规律,它只是一条经验拟合出来的曲线。



当Diogo Almeida认为真相并非如此,不是方法不一样,“是最初那版scaling law本身有个bug。”



OpenAI三招骗了全球AI同行?

要制造一个让全球AI集体相信的谎言,只需要三步。

第一步:囚禁数据。

OpenAI论文给所有模型——不管它是还在学习走路的孩子(小模型),还是已经长成巨人的模型,喂了完全相同的“饭量”。大约130B tokens数据。

小模型因此被“喂饱”甚至“撑到”,而真正需要海量数据来填满其容量的大模型,却在同一token预算下严重营养不良。





上下滑动查看

Chinchilla论文后来一针见血地指出:他们对所有模型使用了“对所有模型使用了固定的训练Token数和学习率调度方案。”(fixed number of training tokens and learning rate schedule)。



这就像让幼儿园小朋友和博士生用同一张试卷、同一时间考试,然后宣称“成绩只与天赋有关”。

第二步:掩耳盗铃的LR衰减。

他们使用了余弦学习率衰减(Cosine Decay),让学习率在训练接近终点时平滑地趋近于零。



训练快到预设的终点时,学习率被人为地一点点摁到零,模型的进步自然就“平”下来了。

曲线一走平,看上去就像:这模型已经学到头了,再喂也没用了。

研究者们于是得出结论:“加数据没用了,模型已经饱和。”

这不是模型的极限,这是学习率把模型的成长之路人为掐断。它制造出一种完美的假象:性能已经到达天花板,再加数据也无用。

可我们现在知道,那些大模型根本没到头。

第三步:权威的傲慢。

第三步,也是最阴的一步:论文里写了一句,结果“基本不受学习率曲线影响”(largely independent of learning rate schedule)。



虽然包括当时在OpenAI的Diogo Almeida的不少人都隐约感觉到不对劲,但在固定token上限下,这个结论技术上正确。

可它偏偏不适用于scaling law真正想描述的那个“数狙剔限”的理想世界。

他们把有限条件下的局部真理,当成了普适的宇宙法则。

三步叠在一起,你就得到了一条既错、又极难debug的定律。

连Diogo自己都承认:当年他也在OpenAI做优化,也没看出这个bug——那条学习率曲线看着太像是“精心设定”的了,谁会去怀疑呢。



GPU被白白浪费

算力错配严重

受OpenAI错误公式的指引,AI行业进入了“大力出奇迹”的时代。

这意味着在过去的几年里,全球最聪明的头脑、最稀缺的算力,都浪费在了无效的规模扩张上。

这不仅仅是钱的问题,这是在通往AGI(通用人工智能)的生死时速中,人类因学习率设置,集体在错误的跑道上狂奔了数千公里。

如果说Bug的发现让人心痛,那么随后引出的深度反思则让人不寒而栗。

研究者Adam Zachary Wasserman指出了一个被所有人忽略的盲点:即便公式修正了,目前的Scaling Law也只是“英语Scaling Law”。



他做了一个反直觉的实验:用同样的架构、同样的算力训练模型。

结果发现,法语模型达到某种语法能力的效率,竟然比英语模型高出50到100倍。



为什么?因为英语是一种“形态贫乏”的语言。

它太依赖分布规律,需要模型在海量数据中去猜词义;而像法语、中文这种形态丰富或结构严密的语言,在词汇本身就带有大量明确信息。



这意味着,我们现在所有的算力配比方案,都是基于一种最“吃数据”、最低效的语言制定的。

当你以为你在探索“通用智能”的物理定律时,你其实只是在测量“英语这门语言有多浪费算力”。

这就像是你试图通过研究一头猪的胃口来制定全宇宙生物的营养标准——这不仅是偏见,更是认知的局限。

我们本可以用更小的模型、更多的优质数据,实现更强的性能。

我们本可以节省下数以万计的H100运行时的电力和热量。

我们本可以提前两年进入“高效AI”时代。


    24小时新闻排行榜更多>>
  1. 川普签名登1百元美钞图曝光 肖像也想印250元美钞
  2. 当着中方的面,菲律宾许下三点承诺
  3. 美国代理国家情报总监解雇数十名官员
  4. 川普:只要一发就能全部解决
  5. 70岁米雪疑遭白衣男贴身搭膊
  6. 法国能源巨头呼吁欧中合作推进能源转型
  7. 8张黄牌,加拿大虽败犹荣
  8. 世界杯16强展开8场激战 有强队要火并
  9. 美国USAID砸12亿美元反中 疑全进了关系户口袋
  10. 世界杯黑马佛得角拟战国足 驻华大使:这是好时机
  11. 陈妍希带儿子现身机场
  12. 世界杯突尼斯8名球员药检阳性 疑墨西哥污染肉所致
  13. PC及内存硬盘价格持续高位
  14. 人口争夺战:成都,虹吸重庆
  15. 24省人口负增长,连锁反应来了
  16. 美将公布习近平财富 王毅紧急和卢比奥通话
  17. A股万亿天团,“深圳造”只剩独苗
  18. 纽约市长曼达尼国庆日前演说 痛批川普反移民政策
  19. 前FOX记者拒绝披露陈雁平案消息来源 最高法判了
  20. 爆陈希被调查 与蔡奇甩锅内情流出 张又侠案成核心
  21. 加上了川普头像的“总统山”
  22. 川普:这点小雨没影响,让我们尽情狂欢
  23. 美国国庆活动政治化引争议
  24. 欧盟最后通牒:中欧对话“须令人满意”
  25. 时薪最高$80:留学生在洛杉矶上门做饭
  26. 男性最耗阳行为,烟酒未上榜
  27. 一个人最顶级的财商是什么?你有吗?
  28. 庆国庆,各式美国军机飞行表演
  29. 中方否认贸易失衡责任及援俄指控
  30. 耗资3.69亿英镑!爆殿修了,国王不住了
  31. 伊朗民众涌入大清真寺,喷水降温
  32. 法国1比0巴拉圭,摩洛哥横扫加拿大
  33. 夜宵选这些小海鲜,过嘴瘾还不长肉
  34. 寿命长的人,脸部都有4特征
  35. 迎建国250周年,美国民众忧喜交集
  36. 女排国手被网暴,因和黑人恋爱而被歧视
  37. 天津市科学技术普及项目拟立项公示
  38. 美司法部致函各州:打击阻止油价下降行为
  39. 美国如果输掉独立战争 今天会是什么样?
  40. 美国庆活动紧急撤离数千人!特勤局发声,原因曝光
  41. 为什么说人是急死的 欲速不达是真的
  42. 美国250周年国庆遇“高温劫”
  43. 佩洛西的老公又出事 撞上停放车辆 面临逃逸指控
  44. 四次出逃九死一生 专访董广平:跨越十年的自由之路
  45. 谁制造了习近平时代?是因为“看走眼选错人”吗?
  46. 西安赛格商户老板坠亡:撕开商场"拆单"潜规则
  47. TVB艺训班的“开山祖师”走了
  48. 中男“败家三件套”,观鸟排第一?
  49. 物理学家泄漏天机 我们全都活在幻觉中!
  50. 特斯拉在迈阿密推出机器人计程车服务
  51. LV在中国密集起诉商标侵权
  52. 大堡礁免列濒危世界遗产清单
  53. 银发离异多为争财产、或为自己活
  54. 爆中共定性小飞机撞楼是恐袭 官场流传夏桀被咒典故
  55. 美国庆烟火出包!布鲁克林大桥猛窜火光
  56. 父亲的国葬,穆杰塔巴“仍未现身”
  57. A股上半年真相:一场属于少数人的“牛市”
  58. 万斯:希望英国下任首相改革
  59. 教皇呼吁欧洲加强保护移民
  60. 范斯在两栖攻击舰的甲板上发表国庆演说