9B“小”模型干了票“大”的:拿下23项SOTA

2025-07-01 22:25:25 · chineseheadlinenews.com · 来源: 量子位

如果一个视觉语言模型(VLM)只会“看”,那真的是已经不够看的了。

因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有深度思考的强推理能力。

而就在刚刚,智谱发布并开源了一个仅9B大小的模型——GLM-4.1V-9B-Thinking,在28项评测中一举拿下23个SOTA!

毫无悬念地成为10B级别里效果最好的VLM模型;而在18项评测中,它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下,甚至是超越的程度。

整体来看,GLM-4.1V-9B-Thinking之所以能够这般“以小搏大”,核心原因就是会思考:

引入了思维链(Chain-of-Thought)推理机制,并通过课程采样强化学习(RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。

值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了10亿元投资,并将于近期完成首次交割。

评测是一方面,但也正如我们刚才提到的,现在的AI“贵在”得能干点实事儿,那么GLM-4.1V-9B-Thinking具体“疗效”如何,我们继续往下看。

先看效果

例如我们在不给提醒的情况下,先“喂”GLM-4.1V-9B-Thinking一幅名画:

然后向它提问:

这幅画中哪些元素违背物理规律?艺术家可能通过这些矛盾表达什么哲学思想?

可以看到,GLM-4.1V-9B-Thinking先是看出了这是西班牙超现实主义画家萨尔瓦多·达利创作的《记忆的永恒》;然后也道出了画作中存在违背物理的视觉符号等。

我们再让它看一眼今年高考的一道图文并茂数学真题,并附上一句Prompt:

请帮我解决这个题目,给出详细过程和答案。

(PS:这道题很多大模型在之前都有出现过翻车。)

GLM-4.1V-9B-Thinking在思考片刻过后,就会给出一个简洁且精准的答案——A:

再如此前同样让一众大模型“头疼”的看时钟和日期问题,我们也让GLM-4.1V-9B-Thinking试一试:

看这张图,分别是什么时间和什么日期?

在同时处理两个易出错的问题时,GLM-4.1V-9B-Thinking依旧是给出了相对准确答案(时间有一点小偏差,应该是10点11分):

以及还有生活中比较有趣且实用的例子——看手相:

有懂手相的小伙伴,也可以留言讨论GLM-4.1V-9B-Thinking看得是否准确哦~

由此可见,GLM-4.1V-9B-Thinking在“边看边想”这件事已经达到了普通人的水准。

整体而言,它现在的能力包括但不限于:

超长视频解析:能看懂长达2小时的视频,准确分析其中的人物、事件和时间关系

智能读图问答:不仅能描述图片内容,还能结合常识进行逻辑推理和解答

理科解题助手:支持数学、物理等理科题目解答,提供详细解题步骤

图文识别转换:可精准提取图片/视频中的文字和表格,转为结构化数据

专业文档处理:擅长解读金融、政务等专业文件,快速提取必键信息

图像定位标注:能标出图片中指定对象的具体位置坐标

智能界面操作:可识别电脑/手机界面元素,执行点击、滑动等操作指令

看图写代码:根据设计图自动生成前端网页代码

再看技术

在看完效果之后,我们再来聊聊GLM-4.1V-9B-Thinking背后的技术。

从GLM-4.1V-9B-Thinking的模型架构来看,主要包含三大块的内容,它们分别是:

视觉编码器(ViT Encoder)

多层感知机适配器(MLP Projector)

语言解码器(Language Decoder)

视觉编码器就好比模型的 “眼睛”,团队给它选了AIMv2-Huge这个 “超级视力装备”。

一般的 “眼睛” 看视频用的是二维卷积,就像一张张照片,但GLM-4.1V-9B-Thinking这个 “眼睛” 换成了三维卷积,这样它就能像看电影一样,在时间维度上 “快进快退”,快速处理视频,效率大大提高。要是遇到静态图片,它就把图片多复制几份,假装是 “小短片”,保证输入格式统一。

为了让这个 “眼睛” 不管看到多宽多窄、多清晰的画面都能适应,团队还给它做了两个升级。

第一个是加了二维旋转位置编码,这就像给 “眼睛” 戴了一副 “特殊眼镜”,就算画面特别宽(宽高比超过 200:1),或者特别清晰(4K 以上分辨率),它也能稳稳地 “看清楚”。

第二个是保留了可学习的绝对位置嵌入,就像给 “眼睛” 记住每个画面位置的 “小本本”,在训练的时候,通过双三次插值,让它能灵活适应不同大小的画面。

语言解码器则是模型的 “嘴巴” 和 “大脑”,负责理解你的问题,然后给出答案。

团队把原来的旋转位置编码升级成了三维的,这让模型在同时处理画面和文字的时候,能更好地理解空间关系,就像你一边看地图一边听别人描述路线,能更快找到方向,而且它回答文字问题的能力一点没减弱。

多层感知机适配器就像是 “眼睛” 和 “大脑” 之间的 “翻译官”,把 “眼睛” 看到的信息翻译成 “大脑” 能理解的语言,让整个模型顺畅地工作。

在训练GLM-4.1V-9B-Thinking方面,则是包含三个阶段:预训练(Pretraining)、监督微调(SFT)和课程采样强化学习(RLCS)。

预训练阶段

在最初阶段,团队的目标是让模型具备广泛的图文理解能力。

为此,智谱采用了“双通道并行”的训练方式,对模型进行了12万步的训练。每次输入的文本长度为8192,整体批量大小为1536。训练用的数据包括图像配文字、图文混合内容、识别文字(OCR)、图像定位、指令问答等多种类型。

为了提高训练效率,团队还用了“样本拼接”的方法,把不同长度的训练数据拼成接近最大长度的长序列,这样可以尽可能多地利用显存,减少浪费。

为了让模型更好地处理高分辨率图片、视频片段以及特别长的文本,团队在训练中加入了更复杂的数据,比如视频的连续画面和长度超过8000字的图文内容。

在这个阶段,团队把输入的序列长度扩展到了3万多(具体是32,768),并采用了更高级的并行训练方式(两路张量并行加上四路上下文并行),继续训练了一万步,同时保持之前的总批量大小不变(1,536),以确保训练的稳定性和效率。

监督微调(SFT)阶段

在微调阶段,团队专门准备了一批高质量的“思维链”(CoT)训练数据,目的是提升模型在处理复杂因果关系和长篇推理问题时的能力。这些训练样本都按照统一的格式进行组织:

微调时团队对模型的全部参数进行了训练,输入长度设为32768,批量大小为32。

训练内容来自多个实际任务场景,比如解数学题、多轮对话、任务规划和复杂指令的执行,数据形式包括图文结合、多模态输入和纯文本等多种类型。

这个阶段不仅进一步提升了模型处理多模态信息的推理能力,同时也让它在语言理解和逻辑推理方面依然表现稳定。

课程采样强化学习(RLCS)阶段

在SFT的基础上,团队还引入了课程采样强化学习来提升性能。

团队主要结合了基于可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF)来覆盖多个关键任务维度:

STEM领域问题求解(数学、物理、化学)

多模态信息定位与理解(OCR、实体定位、视频分析)

智能体任务(GUI交互、代理规划)

文档与图表理解、逻辑推理、复杂指令执行等

团队采用“课程学习”的方式进行大规模强化训练,也就是先让模型从简单任务开始,逐步挑战更难的任务。通过这种由浅入深的训练策略,模型在实用性、准确性以及稳定性方面都有了明显的提升。


    24小时新闻排行榜更多>>
  1. 地震消息令人震惊 传中国科学院院士微信泄露
  2. 网传李克强女儿的信 直呼习近平暴君
  3. 《人日》刊文纪念李克强冥诞 《求是》删文
  4. “把老婆还给我”天津男子派出所跪求“霸妻”所长
  5. 李克强70岁冥诞 《人民日报》刊长文纪念、肯定
  6. 众院通过程序性投票 将最终表决大而美法案
  7. 专家警告:美国逼小柄硬吞20%重税,仍难挡中国洗产地
  8. 美国6州43处海滩紧急关闭 致命细菌威胁数千万游客
  9. 没喝过奶+天天冰火浴,婴儿瘫痪失明
  10. 美国疯抢,铜价逼近年内新高
  11. 遥祝薄熙来生日快乐 薄毕瓜发文:最伟大的父亲
  12. 张国焘提名9人进中央政治局,毛主席拒绝
  13. 河南省郑州市中级人民法院,和它的一费剔耻的判决
  14. 吹牛老爹躲过重罪指控,子女欢呼“胜利”
  15. 美媒惊曝:中共真正野心不在台湾 而是西伯利亚
  16. 习“全面主席”成笑话 专家讽其治国荒腔走板
  17. 日本建设新型海底监测网
  18. 南航机长刺伤主管跳楼身亡 事件冲热搜榜首网络炸锅
  19. 川普准备发表演讲,拉开为期一年的美250年庆序幕
  20. 美中关系走向:加速脱钩还是趋于改善?
  21. “大而美法案”众院219票闯关
  22. 王毅访欧既要又要,鱼和熊掌能否兼得
  23. 7.20反迫害26周年 新世纪推出长片《传递》
  24. 新疆书记换人 袁红冰:与中东局势变动有关
  25. 别把飞行员搞得那么神秘敏感,旅客安全才更有保障
  26. 人民日报纪念李克强冥诞发出了什么信号
  27. $1500亿资金注入 "美丽大法案"或将颠覆移民执法
  28. 缓解住房危机 纽森签法案全面改革加州环保法
  29. 从小粉红到反共斗士:农家子弟觉醒之路
  30. "大而美法案"众院219票闯关!5共和党人一度倒戈
  31. 朝鲜将派遣额外3万名士兵,前往俄乌战争前线协助莫斯科
  32. 日媒:习权力正受打击 国安系首当其冲
  33. 传美国解除对中国乙烷出口管制,路透:美中贸易休战
  34. 6月非农报告或延长美联储观望期
  35. “大而美法案”终过关,将送交川普签字
  36. 争夺未来能源主导权之战:中国正在领先
  37. 华为盘古大模型首次开源
  38. 吹牛老爹判了 震动欧美圈 最重罪行全躲了 刑期仅…
  39. 曝歼20缠斗F35 央视强调“牺牲准备”令小粉红洩气
  40. 女性就业难 国企是挤兑“妈妈岗”的重灾区
  41. 楼市危机全面爆发 上海房价血亏 杭州跌回2015年
  42. 纽约市府将设五座创新公厕
  43. 已入籍也不保险!川普动手 这10类人恐失去美籍!
  44. 专家:中共治国荒腔走板 政权衰败征兆
  45. 1.2万磅蓝莓全美最高等级召回 不只拉肚子还可致命
  46. 达·芬奇“维特鲁威人”隐藏几何密码被揭开
  47. 王毅:稀土不会成为中欧之间的问题
  48. 海豚蛋蛋尺寸惊人:全因它们是滥交高手
  49. 歼-20的雷达探测距离达到1000公里?
  50. 李在明:韩朝不应互相敌对
  51. Black Forest开源新模型:文本P图党福音
  52. 仅10名员工却租四千平办公,实探这些“诡异”的公司
  53. 【名家专栏】遏制行政国家 维护总统权力
  54. 川普政府施压 墨西哥拒绝比亚迪建厂
  55. 台盟前副主席李钺锋被判无期
  56. 姐姐讲述模特弟弟被骗缅甸细节
  57. 房产大王被清华学霸儿子手撕 曾挪用国企5千万入狱
  58. 美越达成贸易协议,对亚洲市场意味着什么?
  59. 李飞飞:没有空间智能,AGI就没戏
  60. 谷开来与王立军真有一腿吗?姜维平:只是烟幕弹