OpenAI开源新模型:99.9%的权重是0

2025-12-14 01:25:26 · chineseheadlinenews.com · 来源: 量子位

破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线?

OpenAI悄悄开源新模型,仅有0.4B参数,且99.9%的权重为零。

也就是Circuit Sparsity技术的开源实现。

这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话(doge)。

更有人直言这种“极致稀疏+功能解耦”的思路可能会让当下热门的MoE(混合专家模型)走上末路。

那么,当Transformer的权重被训练到近乎全0,会发生什么呢?

放弃粗糙近似,追求原生稀疏

先说说为啥这个模型的思考过程能像电路图一样好懂。

咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。

而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留下千分之一的有效通路。

这些留存的非零权重连接就像电路图里的导线,信息只能沿着固定路径传递;同时,模型还会通过均值屏蔽剪枝方法,为每个任务拆出专属的最小电路。

比如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头就能构成核心电路,包含专门的引号检测器、类型分类器等功能模块,就像电路图里的电阻、电容,各自管各自的事。

实验数据显示,在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且具备严格的必要性与充分性——保留这些模块就能完成任务,删掉任一节点则直接失效。

这样,每一步的逻辑都能精准追踪。

那这时候就不得不提当下主流的MoE模型了。

MoE的核心思路是通过门控网络将模型拆分为多个专家子网络,每个专家负责处理一部分任务,靠路由器分配任务来提升效率,本质上是用拆分专家这种粗糙的方式近似稀疏性,目的只是为了适配硬件的稠密矩阵计算需求。

但这种架构存在致命缺陷:

一是会割裂模型的特征流形,导致专家同质化严重、知识冗余等问题,不同专家间的信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧;

二是专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准拆解。

反观Circuit Sparsity,追求的是模型原生的稀疏性,通过把特征投射到超大维度,再严格限制有效激活的节点数量,从设计上就让每个特征变得单义、正交,从根源上解决了传统模型一个概念分散在多个节点的叠加问题,不用靠路由器这种hack手段也能避免信息干扰。

不过Circuit Sparsity目前也有明显的短板,最突出的就是算力成本极高。

训练和推理的计算量是传统稠密模型的100-1000倍,暂时还达不到顶尖大模型的能力;

而MoE模型在算力效率和性能平衡上已经很成熟,短期内依然会是工业界的主流选择。

并且,这项工作也只是AI可解释性探索的早期一步,未来团队计划将技术扩展到更大的模型,解锁更复杂的推理电路。

目前,团队发现有两种克服稀疏模型训练效率低下的方法:

一个是直接从现有的密集模型中提取稀疏电路,这样直接复用基础框架,不额外训练稀疏模型,能大幅降低成本;

另一种途径则是不放弃从头训练可解释稀疏模型的这种思路,但针对训练慢、成本高的短板,从技术层面优化训练机制,造出原生可解释、且能高效落地的模型。

那么就期待研究人员后续用更成熟的工具或技术,逐步揭开大模型的黑箱面纱了。


    24小时新闻排行榜更多>>
  1. 房产税高到不合理?美国屋主可以试试这样做
  2. 美国突击队罕见拦截行动 查获中国运往伊朗的货物
  3. 美特使:白俄同意停止向立陶宛领空放热气球
  4. 国内清查“双重身份”
  5. 最新报告:中国家庭留学选择更务实
  6. 中国驻美大使会见AMD苏姿丰
  7. 川普关税若遭推翻,美股初期或涨
  8. 川普警告俄乌冲突可能升级为第三次世界大战
  9. Space X的护城河
  10. 美科学院官宣人类必须亲自登火星
  11. 美叙联合巡逻队遇袭3死3伤 川普誓言要报复
  12. 身穿防弹衣,自拍录视频——泽连斯基亲赴前线
  13. 犹他州沙漠发现稀土宝藏,美增战略优势
  14. 中共2026年将继续发行超长期特别国债
  15. 1年烧掉50亿吨,石油还能撑几年?
  16. 谷歌推出AI语音同声传译功能 不知道对方哪国人也行
  17. 何晴去世,人们在怀念什么?
  18. 白宫:美国总统川普“不想再谈了,他想要行动”
  19. 川普遭20个州联合起诉
  20. 墨西哥重课对华关税 全球贸易防线加速成形
  21. 梅西印度行组织者在机场被逮捕 承诺全额退票
  22. 印度东北的“犹太人”:“想象共同体”卷入远方的博弈
  23. 可再生能源板块成美股大赢家
  24. 我从哆啦A梦看懂了日本“陪伴式教育”
  25. Lisa和继父的合影,怎么感觉那么别扭?
  26. 比亚迪库存巨大 负债激增数倍
  27. 白宫砸3亿美元盖宴会厅 37位幕后金主名单揭晓
  28. 80后计生幸存者:生于恐惧中 长在迫害下
  29. 冬天限定“神仙菜”,好吃又有营养
  30. “助理费除罪化”引争议 28名国民党立委拒撤案
  31. 拒绝变老!盎豪与17岁儿子换血 每年花200万美元
  32. 全球央行10月净买入49吨黄金
  33. 甘肃山体滑坡致45房被埋 官媒4天才报无伤亡遭轰
  34. 医生将在“超级流感”高峰大罢工 英国首相急发文
  35. 行家才知道的几个秘诀 搭机时可派上用场
  36. 中国大亨赴美,狂生超100个孩子
  37. 爱看卢克文的,可不止小镇青年!
  38. 白宫砸$3亿盖宴会厅,金主名单揭晓
  39. 联合航空客机引擎故障折返美国机场 零件脱落引火警
  40. 搭佛州环球影城云霄飞车 他“头部猛撞 大腿骨折”惨死
  41. 习近平光环下的根基出现裂痕 揭露经济困境事实
  42. 川普点名未来美联储新任主席“应该听我的意见”
  43. 照片惹争议,选美冠军遭撤冠
  44. 马荣铮过档自由党,博励治圣诞不好过
  45. 骇人命盘 三大凶相同时引爆 2026清算启动
  46. 柏林和谈启动 美推乌克兰2027入欧 欧盟冻结俄7.8兆资产
  47. 商务部等三部门:更大力度提振消费
  48. 巴黎圣母院新彩窗丑到违法?30万法国人签名起诉
  49. 因为一个骚操作,印度的反诈APP被全民抵制了
  50. 联合国维和部队在苏丹遭袭
  51. 意大利通缉犯藏身圣诞布景扮雕像 市长路过识破
  52. 【新闻大破解】看懂川普战略终极红线
  53. 舍命拍下新疆集中营铁证 流亡美国的中国青年恐遭遣返
  54. 对冲基金冲入大宗商品实物资产
  55. 光伏协会,为何要亲自下场参与产能收储?
  56. 这么多年了,孙正义可以忘掉马云了吧?
  57. 新版医保明年1月起执行:新增114种药品
  58. 我实在不知道,明朝有什么好悼念的?
  59. 一条小吃街,竟都是同一收款码
  60. 北极冷空气急冻美中西部 华州洪水危机未解