国产AI高考708分,这款模型靠什么成为“屏蔽生”?

2026-06-27 02:26:13 · chineseheadlinenews.com · 来源: 机器之心

这两天,各地高考陆续放榜,大模型“陪考”成绩单也新鲜出炉。

高考结束后,多家媒体对国内外主流大模型进行横向测试,有全科综合,有单科专项,多维度交叉比拼。

先看综合成绩。羊城晚报教育发展研究院拉来 8 位 AI 考生全科作答,由 2 名资深教师独立盲评,总分按历史类和物理类分科方式统计。

结果显示,物理类总分上,Claude Opus 4.8 与讯飞星火X2 以 708 分并列第一;历史类总分突破 700 分的,则只有讯飞星火X2,两类均达到广东屏蔽生水平。

国产AI高考708分,这款模型靠什么成为“屏蔽生”?

从总分维度看,头部模型之间的得分差距并不悬殊,最终排名更多取决于全科表现的稳定性。

ChatGPT 5.5 Pro 和 Claude Opus 4.8 在长文本输出和议论文论述上均无明显短板,但在历史类总分上未能跻身前两位,说明均衡表现本身也有层级差异。

讯飞星火X2 在两类总分中均取得领先,评测报告给出的解释是,其优势来自语言理解、数理推理和综合分析等不同任务之间的相对均衡,没有单一科目形成明显拉动。

再看单科专项

新京报选取 2026 年新高考 I 卷数学题,对 6 款推理型大模型进行专项测试,讯飞星火以 148 分居首,Kimi 145 分、DeepSeek144 分、智谱 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。



澎湃新闻则是组织 9 款大模型写上海卷高考作文,经两位教师独立盲评取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分紧随其后。



英文作文这边,《观察者网》测了 12 款大模型,讯飞星火和 ChatGPT 5.5 Pro 并列进入第一梯队。



为什么讯飞星火是最会考试的大模型?

高考是中国最标准化的知识与思维测试,其评分逻辑有一个通用大模型容易忽略的维度,也就是过程规范性。

以数学为例。数学阅卷不只看最终答案,步骤是否完整、推导是否符合教材规范,同样直接影响得分。

根据此次评测,部分模型在长链条推理中出现步骤跳跃,有的引入超纲解法,虽能得出正确答案,但面临过程分被扣除的风险。讯飞星火X2 在这类题目中解题步骤更规范,过程分、结果分和推理清晰度三个维度保持了较好的一致性。尤其是在几何性质解析上思路清晰、解法简洁,部分题目还主动给出两种解题路径,“数形结合能力明显优于其他模型”。

物理、化学、生物三科得分差异,主要取决于模型能否将读题、推理和规范作答完整串联,讯飞星火X2 在三科中各环节衔接顺畅,失分点相对较少。

语文作文上,ChatGPT 5.5 Pro 与 Claude Opus 4.8 长于框架搭建和逻辑推进,文章结构成熟完整,这或许与它们在大规模英语语料上的训练积累直接相关。讯飞星火X2 各模块得分相对均衡,评师对其作文的评价集中在时代立意、逻辑完整性和论据新颖性上。

大模型的能力边界,在很大程度上由训练数据的质量和结构决定。

通用大模型的训练语料以互联网公开文本为主,覆盖面广,但教育场景的核心数据,比如学生的分步骤作答过程、错误类型分布、教师的批注与评分依据等在公开网络上极为稀缺。这类数据存在于真实的课堂和考场中,获取它需要进入学校场景,建立长期的数据采集渠道。

科大讯飞从 2004 年起布局教育产品,AI 技术目前深度应用于全国 6 万余所小学和中学,在真实课堂教学场景中完成了亿万次与师生的交互,积累了大量高标注密度且专业合规的学情数据。这个数据基础,是近年才进入教育赛道的公司短期内难以复制的。

2012 年,搭载科大讯飞评测技术的产品还首次服务广东中高考英语听说考试,自此,讯飞开始积累机器评测结果与人工评分之间的对齐数据。这个过程持续 14 年,形成的不只是数据量,还有对各学科评分标准随高考改革演变的持续跟踪。

在模型训练层面,讯飞将有经验教师的评判逻辑结构化后注入模型,形成“教学思维链”驱动的教育深度推理大模型

具体来说,是把教师判断答案好坏的思考路径,包括如何识别错误步骤、如何判断作文立意层级,转化为可训练的数据格式,让模型学习评判标准本身。

这也解释了为什么一些通用大模型在知识覆盖上并不弱,却在分步推导和主观题评分上仍有明显差距,这缺的不是知识,是对评判标准本身的理解。在垂直场景的模型竞争中,高质量领域数据的稀缺性,往往比模型参数规模更具决定性。

考场之外,才是真正的硬仗

大模型在标准化测试中表现好,和它能在日常教学场景里稳定运行,是两码事。

高考是一次性的结构化任务,评分标准明确,最终结果可以直接用分数呈现。课堂教学却是持续、高度情境化的过程,涉及教师操作习惯、学生个体差异和学校基础设施等大量非技术变量。

这也是为什么“高考满分”对教育 AI 来说是一个值得讲的故事,却不是一个可以单独成立的商业壁垒。

真正的壁垒在于落地。教育场景的复杂性决定了,任何试图进入这个领域的技术产品,都必须同时解决三个维度的问题:技术能不能用、教师愿不愿意用、学校能不能持续运转起来。三者缺一,都会让模型能力在真实场景中大打折扣。

为了应对这种复杂性,讯飞选择的落地路径是软硬件一体化,通过自研硬件终端控制数据入口和使用环境,将大模型能力嵌入教学的三个核心场景



图源:科大讯飞智慧教育公众号

课堂端,“同窗 AI 黑板”让 AI 参与课堂互动过程,可将数学公式动态可视化、用 3D 工具呈现立体几何,也可以扮演历史人物与学生展开对话,把原本单向的内容播放变成双向的推理引导。课后端,“星火智能批阅机”将作业反馈从判断对错推进到定位错误步骤,识别错因出现在哪一环、属于哪类认知偏差,据此生成个性化训练方案。家庭端,AI 学习机则将个性化辅导延伸至课外,错因分析能读懂孩子解题逻辑,还能跨年级溯源、消除知识深层薄弱点,对症剖析通过互动问答对孩子进行思路点拨,帮助其精准定位卡壳点,引导学生逐步推导解题过程。

这一路径选择,也有其现实逻辑。纯软件方案高度依赖学校已有终端,兼容性参差不齐,落地变量难以控制;自研硬件能够保证使用环境的一致性,数据采集也更为可控。每一个终端都是一个采集节点,学生的作答过程、错误类型、教师的评判行为,都在真实使用中持续沉淀。数据反哺模型训练,模型优化产品,产品扩大部署,部署带来更多数据,由此形成闭环。

从行业角度看,教育 AI 的竞争正在进入第二阶段。第一阶段比的是模型能不能答对题,头部模型在标准化考试中的表现已经说明,答题能力本身不再是主要门槛;第二阶段比的是产品能不能真正嵌入教学流程、形成稳定的使用习惯,并在此过程中积累起有价值的场景数据。后者的门槛远高于前者,不仅需要技术能力,还需要对教育场景长期、深度的理解与投入。

讯飞在教育领域深耕 22 年,数据积累是其优势的重要来源,但并非全部。星火X2 是基于全国产算力自主训练的大模型,其在此次评测中的表现,同样有赖于算法架构的持续优化和推理能力的迭代提升。在多个学科维度保持均衡,背后是模型在理解、推理、表达等核心能力上的协同进步。

AI 真正该做的,是让好教育不再是“特权”

大模型在高考中斩获高分,难免引发一种焦虑:AI 会不会取代教师?这个问题本身,或许暗含对教育本质的误读。

高考测量的是知识掌握与基础推理,是可以被量化、被评分的部分。而真正的教育要培养的,是思辨、共情、创造与价值判断,这些构成完整人格的能力,从来不是一张试卷能够装下的,也不是任何模型可以替代的。

从这个意义上说,AI 的高分成绩单引发的真正追问,不是机器能否超越人类,而是这项技术能否触及教育资源长期失衡的现实

长期以来,优质教育资源高度集中,个性化辅导是少数学生才能获得的条件。AI 的介入,有可能让每个孩子都拥有一个能够识别其学习盲区、因材施教的学习伙伴,让高水平的教育支持不再只属于特定学校和特定家庭。

这或许才是 AI 考出高分真正值得期待的意义。


    24小时新闻排行榜更多>>
  1. 小飞机撞北京最高楼“中国尊” 残骸坠地伤亡不明
  2. 飞行员献忠?北京最高地标遭撞击更多内幕曝光
  3. 北京“中国尊”疑遭小飞机撞击 事发周边警力部署加强
  4. 北京第一高楼疑遭小飞机撞击 飞机损毁员工紧急疏散
  5. 世界杯新双骄对决停演,这是属于登贝莱的夜晚
  6. 重大反抗事件:中共105周年前夕 飞机撞北京地标性建筑
  7. 吓死习近平 勇士后门入帝宫 竟然和中情局有关?
  8. 里根号航母士兵坠亡案 揪出美军58人毒品供应链
  9. 乐视流出档案披露中国日常化网络审查流程细节
  10. 中国用何“利器”削弱美国制裁伊朗的杀伤力?
  11. 德国全国铁路瘫痪两小时 再度引发禁止华为的讨论
  12. 美国会听证称中共经济间谍渗透已从华府延至基层
  13. 沉默近170年后,美国加州断层“绷到”千年来最紧
  14. 美国华男家中中枪身亡 警方确认系凶杀 凶手仍在逃
  15. 男子“仅退款”诈骗70余商家榴莲
  16. 盖房、装水电、洗空调:中国各地兴起“全女维修队”
  17. 文青大妈在“南美巴黎”之暴走记
  18. AI取代所有工作?比尔盖茨:只有4种职业能存活
  19. 美国人如何看待250周年国庆?
  20. 《给阿嬷的情书》在新加坡掀起身份认同“大辩论”
  21. 姚文元曾写回忆录 披露中共内幕
  22. 小人得国不长久
  23. 吉尔戈海滩连环杀手,移监艾米拉惩教所
  24. 签署谅解备忘录后发生交火,美伊双方互放狠话
  25. 川普:恢复空袭
  26. 第一份工作正在消失:AI如何切断年轻人的职业阶梯?
  27. 《抓特务》遇冷,冯小罢和韩红的身费淌题
  28. 法队三战三胜,4:1胜挪威
  29. 医院工作竟成“自助餐” 男子囤积遗体 食用部分组织
  30. 克宫:苹果公司,给个解释吧
  31. 金价下跌是“好消息”
  32. 点餐等太久火大失控 美国女子速食店内亮上膛手枪
  33. 韩国年轻人流行靠炒股改命
  34. 为什么说“桃养人 杏伤人 李子树下埋死人?”
  35. Anthropic最强模型放行百家美机构
  36. 美情治报告拟交国会 揭露习近平等中共政要财富细节
  37. 康生抓特务 延安人人自危
  38. 全国打工人,周末都忙着去商场“比赛”
  39. 蜱虫正在改变美国富人岛
  40. 伊朗收获三连平
  41. 播佑冈仓库灾后,腐败食物飘异味
  42. 全国3196所高校名单出炉,北京稳居“高校第一城”
  43. 父亲是一国总统,他却代表美国出战
  44. 大快人心:王思聪前女友被封杀
  45. 逃不出的资费迷宫:天下苦三大运营商话费贵久矣
  46. 人过六十要小心 切记“三不吃、四不睡、五不动”
  47. 梦想成真:让机器人钻进血管治病
  48. 洛县小城迎世足赛 首办“世界精神节”嘉年华
  49. 最近全国的打工人,周末都在商场比完这个比那个
  50. 多家大银行被点名,审计报告有什么警示?
  51. 我在日本做侦探,60%的活都是抓小三
  52. 一场末日浩劫:被世界遗忘的缅甸内战
  53. 迎美国独立250年 250秒回顾:宪法和权利法案
  54. 英王查尔斯与王后为何放弃迁入修缮后的白金汉宫
  55. 反内卷一年后,七大快递巨头过得怎么样?
  56. 韩国队,“命悬一线”
  57. 英特尔,10000亿市值还有多远?
  58. 清华为什么拼命建这么多本科生书院?
  59. 泽连斯基:乌导弹命中俄军工厂
  60. 古巴领导人:美国所谓援助是天大的笑话