智谱发布GLM-5技术细节:工程级智能,适配国产算力

2026-02-22 04:25:23 · chineseheadlinenews.com · 来源: 华尔街日报

2月12日,智谱发布GLM-5,技惊四座。10天后技术报告出炉,让人们一窥GLM-5模型的内在基因。

有意思的不是又刷了什么榜,而是整个思路变了:不再比参数大小,开始比系统工程能力。

GLM-5做的三件事都挺实在:1、模型真的能完成复杂任务了,不只是写几行代码;2、训练效率上了一个台阶,超大模型不再是纯烧钱游戏;3、从底层到推理框架全面适配国产芯片——这个最关键。

如果说之前是“中国在追赶”,现在则已经开始搭自己的技术体系了。

从"给代码"到"做系统"

报告提了个概念转变:从 Vibe Coding 到 Agentic Engineering。前者是你说一句我给段代码,后者是你给目标、我自己规划拆解、写代码调工具、调试迭代,直到把整个系统搞定。

GLM-5的重点已经不是单题得分,而是:

200K上下文(几百页文档的量)

跨文件软件工程任务

长周期任务中持续规划修正

多轮交互保持思考一致性

比如 Vending-Bench 2 要求"模拟经营自动售货机一年",最后看账户余额。GLM-5在开源模型里第一,接近 Claude Opus 4.5。这测的是长期决策能力,不是问答题。

模型开始有"工程级智能"了。

稀疏注意力:不再无脑烧算力

GLM-5有744B参数(激活40B),训练了28.5万亿token。按传统架构,算力消耗会爆炸。

核心创新是DSA(DeepSeek稀疏注意力)。传统注意力机制"看所有内容",计算复杂度平方级增长;DSA动态判断"哪校縪ken真正重要",只算关键部分。

200K长上下文下,DSA把注意力计算量降低1.5–2倍。

而且——无损。

其他高效注意力方法通常牺牲精度,DSA通过继续预训练平滑过渡,性能不退化。

结果是:

同样算力 → 更长上下文

同样成本 → 更高推理能力

同样硬件 → 更大模型

对中国来说,效率创新比堆算力重要得多。

强化学习架构重构

GLM-5的RL体系做了彻底改造。

生成与训练解耦。模型生成轨迹,训练在另一套系统异步进行。过去要等最慢任务完成才继续训练,现在谁先完成谁先训练,吞吐大幅提升。对长程Agent任务至关重要。

异步Agent RL算法解决了真实软件工程中任务持续数小时的问题。引入:

Token-in-Token-out(避免重新分词误差)

双侧重要性采样

DP-aware路由优化KV cache

模型能在复杂环境中稳定学习,不会因策略偏移崩溃。

说白了,解决的是"如何让大模型在真实任务中持续自我改进"。

真正关键的一步:适配国产算力

报告对中国AI最重要的部分在这。

GLM-5原生适配国产GPU生态,已兼容华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯、燧原。

不是"能跑"那种适配,而是:

KV cache调度优化

通信机制适配

混合精度训练匹配

INT4量化感知训练对齐

分布式并行策略重构

很多国产芯片生态的难点不是算力,是软件栈。

GLM-5的意义在于:不是围绕单一海外硬件架构设计,而是面向多种国产算力平台做系统级适配。

这是个质变——中国大模型开始围绕本土硬件生态做工程优化,不再被动迁移。

报告称,得益于上述软硬协同的极致优化,GLM-5 在单台国产算力节点上的性能表现,已足可媲美由两台国际主流 GPU 组成的计算集群;不仅如此,在长序列处理场景下,其部署成本更是大幅降低了 50%。

软硬件闭环正在形成

把GLM-5的技术路径拆开看,是个完整闭环:

模型架构创新(DSA)→ 训练效率优化(异步RL)→ 内存与通信压缩(ZeRO、激活卸载)→ 低精度对齐(INT4 QAT)→ 国产芯片深度适配

这是一条完整的国产AI工程链路。

过去中国AI的优势在应用层,现在开始进入架构创新、算法工程、训练系统、芯片适配、推理框架的全栈优化。

这份技术报告的真正意义,不在某个基准测试分数,在于中国AI第一次以"体系能力"展示竞争力。

从炫技到成熟

GLM-5的报告没过度强调"我们比谁强多少",详细披露训练流程、算法选择、工程权衡、消融实验。这本身就是成熟的表现。

当一个模型开始谈GPU利用率、长尾延迟、KV cache复用、量化kernel对齐、灾难性遗忘控制——它已经不是在秀能力,而是在做工业级系统。

对中国来说,GLM-5更像是一次宣告:我们不仅能做大模型,也能做自己的算力适配,还能把两者打通。

这才是真正的跨越。


    24小时新闻排行榜更多>>
  1. 中南海惊传枪声 陆军司令李桥铭逼宫?军报连发三文
  2. 北京要出事?“春节”现四大怪象!
  3. 斯坦福开发通用鼻喷疫苗:一次管三月
  4. 印度巴西加强稀土合作 与美欧接轨去中国化
  5. 过年胖一圈 饮食6个“小澳变”有助减重瘦腰腹
  6. 读懂川普最新关税措施:最新全球关税将如何运作?
  7. 张又侠出事前后传朱日和训练基地停摆 内藏侵台祸心
  8. 70年代大连过春节
  9. 刘美贤父亲六四被通缉逃亡美国 陆网禁搜
  10. 川普的“解放日”关税 这4项法律能让它复活
  11. 中国北方暴雪大风齐袭 多地黄沙蔽日景区关闭
  12. 小酒商杠上川普关税!一路告到最高法院还赢了
  13. 秦昊伊能静逛街,牵手互动很甜蜜
  14. 冠军之路——“六四二代”刘美贤与“叛国者”谷爱凌
  15. 古训“人到六十,两地不踏”避开才是真聪明
  16. 世界更加惧怕川普
  17. 触目惊心 传“大年初一太多的孩子失踪”
  18. 川习会前夕美对台军售陷僵局 学者析台湾民主安全风险
  19. 中共干扰神韵丹麦演出 法轮功中使馆前抗议
  20. 多伦多关闭3处难民庇护中心
  21. 谷爱凌代表中国参赛引争议 美财长发声
  22. 汪峰带森林北母女逛街,手牵手好恩爱
  23. 英国被曝正阻止美军使用该国基地打击伊朗
  24. 年轻人过年,把洗浴中心玩成了“性价比酒店”
  25. 98岁李嘉诚自己走进寺庙
  26. 比特币的“叙事”逐个崩塌
  27. 晨起急救:3分钟“瞬效消眼袋”
  28. “真相比黄金更重要” 华人盛赞大纪元新唐人
  29. 一周一图看市场,不温不火
  30. 张又侠被抓前后 朱日和基地停止实兵对抗演训
  31. 过年市场冷清 分析:中国人消费为何转冷
  32. 三州地区将再降暴雪,部分地区或达24英寸
  33. 川普新招法源超猛:可无限轮回
  34. 印度将购买委内瑞拉石油?美大使:正积极谈判
  35. 七千座石塔之谜 仙女之家的传说
  36. "以色列拿下中东没问题"?沙特14国:强烈谴责美大使言论
  37. 这届年轻人,为了发财什么都能干出来
  38. 结婚就能扭转遣返令?
  39. 洛县911系统大面积“失联”,原因竟在这
  40. 中国男星一年痛失3至亲“户口本剩自己” 靠AI春节团聚
  41. 炸弹气旋袭美东 纽约等市或遇“雪中雷鸣”
  42. 早春针织衫,选它准没错
  43. 美国洛杉矶宣传 “不要在公交车上拉屎”,令乘客不适
  44. 裁定川普违法 美最高大法官:IEEPA根本没提关税
  45. 中国资产管理巨头AI投资转向 集体加码Google
  46. 英媒揭乌克兰战争情报内幕 难以想像之事未必不可能
  47. 高速上鸭子掉落暴走,车主认领
  48. 巴西股市被热捧:投资大佬重仓
  49. 未来不是“为人创造”,而是“为AI服务”
  50. 42名农民工讨薪三年未果,骑手春节被迫待命
  51. 美军在东太平洋发动袭击 打死"贩毒船”上3人
  52. 刘美贤冬奥摘金 父亲分享百感交集心情
  53. 美前副贸易代表:多国不愿激怒白宫 将遵守关税协议
  54. 纽约州22郡紧急状态!10年最强暴风雪来袭 积雪达60公分
  55. 谷爱凌、李方慧,包揽冠亚军
  56. 川普要求奈飞开除董事会成员赖斯 否则将付出代价
  57. 秋游捷克:布拉格的艺术与美食
  58. 川普:已派出一艘大型医疗船前往格陵兰岛
  59. 大陆00后女生入住养老院 认为比职场包治愈
  60. 中国新年未结束 大陆银行便盯上孩子压岁钱