北大老师专为AI设计的期中考试 结果出乎意料

2025-12-28 21:25:54 · chineseheadlinenews.com · 来源: 中时新闻

北大老师专为AI设计的期中考试 结果出乎意料

北大老師太狠了!專為AI設計的期中考,結果出乎意料!(示意圖:shutterstock/達志)

据《人民日报》报道,在北京大学化学与分子工程学院,有机化学考试是许多同学痛并快乐著的挑战。然而,期中考前突如其来的一条通知,却让这场考试的气氛变得不同寻常:“请注意,本次考试范围不仅限于有机化学。” 但比起考试范围的变化,考场里迎来的一批“特殊考生”,更让人意想不到。

它们不需要落座,也无需纸笔。它们是GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,正在云端与174位北大化学与分子工程学院的大二学生同场竞技。

这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem。近期,他们以一套“北大试卷”为标尺,冷静丈量著AI在科学推理上的真实边界。

一、一场特殊的期中考

打开SUPERChem的题库,一种“压迫感”扑面而来。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

为什么要费尽周折重新出题?

“因为大模型太会『背书』了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读。而化学,恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的1D next token prediction,能否解决2D、甚至3D空间中的复杂推理问题。”

要设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所在。近百名师生——其中不乏奥林匹克金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

他们要考的,是AI是否真的“懂”化学。

二、一场游戏中的学术共创

设计题目往往是枯燥的,但这群年轻的北大人却把它变成了一场“游戏”。

为了构建这套高质量评估集,团队搭建了一个专属协作平台。在这里,出题、审题、修题从单调的任务,变成了一套循序渐进的“通关”流程。成员们在平台上协作,互相审阅、彼此“找茬”,让严谨的科学探讨与活跃的思维碰撞交织共融。

团队还引入了积分激励系统,让出题过程就像在游戏中打怪升级。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关,并发放相应的积分。终审通过的题目,甚至最多迭代过15个版本。

在化学学院的一间间会议室里,灵感的火花不断闪现、碰撞、焠炼,最终沉淀为一套含金量极高的基准测试。

三、当最强大脑遇上“北大难度”

考试成绩揭晓。

在这场精心设计的考试中,人类展现出了复杂的科学直觉。作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的困难程度。

而AI的表现如何?

即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。

让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含著关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。

然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。

四、通向AGI的一小步

SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

团队发布这项成果,并非为了证明AI的缺点和不足,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI能交出一份满分的答卷。那将是化学与人工智能共同的惊喜。

五、挑战一下?

我们选取了一道未能进入SUPERChem题库的“简单”题目,邀请你来体验这场考试。

为纪念门捷列夫发现元素周期律150周年,国际纯粹和应用化学联合会将2019年设为“国际化学元素周期表年”。门捷列夫预言了多种当时未知的元素,M即为其中之一。

M是一种银白色金属,质软,能溶于浓硫酸、硝酸、盐酸和稀碱溶液。M与氧气加热至250°C反应,可得到淡黄色固体A,A经SOCl2处理可得到亮黄色固体B,B也可由M与黄绿色气体C直接加热反应得到;若将B与单质气体D加热至200°C反应,则转化为红色固体E;将M直接溶于稀盐酸,也可得到E的溶液;但若将镀有M的镁片溶于稀盐酸,可以制得少量二元化合物F;F在常温下为液体,不稳定,其水溶液显酸性;F能与金属钾反应,生成淡灰色固体G,并放出单质气体D。

根据上述信息,从以下选项选出正确的说法:

A:物质M的原子序数和族数的奇偶性不同。

B:镀有M的镁片与稀盐酸反应,产物中Mg的化合价与A中M的化合价一样。

C:G具有反萤石结构。

D:由于空气氧化,E溶液久置会转化成含B溶液。


    24小时新闻排行榜更多>>
  1. 黄金白银刷新高,贵金属涨势能否跨年?
  2. “癌症”将有疫苗了,预计明年人体试验
  3. 福建帮觊觎中共最高权位
  4. “嗜画入骨” 民国收藏家之首 庞元济到底有多狠?
  5. 明年红蓝卡处方药大降价 ACA 白卡花费恐增114%
  6. “干掉所有说自己是改开派的人”邓小平晚年交代
  7. 普京突然穿上了军装!释放一个强烈信号
  8. 北约秘书长:反对欧盟防务与美国脱钩
  9. 2026年股市展望供消遣
  10. 敲锣抗议 罗帅宇家人在长沙法院门前讨公道
  11. "今年亚洲表现最糟糕的货币",印度卢比怎么了?
  12. 高圆圆的街头风,简约封神
  13. 香港中大四书院学生会停运 “员生共治已死”
  14. 家贼几十年偷盗南京博物院文物 日军占领北京八年未抢劫国宝
  15. 泽连斯基将与川普见面,俄美乌欧各怎么看
  16. 大陆机器人训练时攻击训练师 引热议
  17. 美股“圣诞行情”创新高
  18. 复刻AlphaZero神话,AI甩开人类自修成神
  19. 辛顿:LLM将以“推理自生成数据”突破Scaling Law
  20. 美国将于川普本届任期内登月
  21. 太空“出差”两个月,神二十一乘组做了什么?
  22. 奥特曼摊牌:苹果才是真宿敌
  23. 《铁证如山》:中共活摘器官罪行蔓延到世界
  24. 川普重塑2025全球贸易格局,明年将面临哪些不确定性?
  25. 这些赛道,芯片巨头不玩了
  26. 中南大学副校长郭学益被查
  27. 中共取消多地跨年活动 分析:惧倒共口号扩散
  28. 张学良被蒋介石软禁54年 晚年亲述“4件事”
  29. 致命冲突持续数周后,泰国与柬埔寨边境停火启动
  30. 喝茶或咖啡,哪个对骨骼更好?
  31. 俄前副国防部长去世,与绍伊古是“老搭档”
  32. 传中行浙江分行行长程军被调查
  33. 亚裔一家4口在美国被偷走全部证件
  34. 陕西大爷
  35. 令人震惊:46张照片讲述本世纪迄今为止的故事
  36. 范丞丞的“辣眼睛”,让这期《跑男》彻底被打脸
  37. 日网教认中日韩游客,太写实
  38. 磷酸铁锂“半壁江山”集体挺价
  39. 因为它,科学家找到火星最佳着陆点
  40. 在乌尤尼盐湖之上行走天空与大地的交界
  41. 穿越雪山冰川,去新西兰感受一场暖冬
  42. 她看见了2026-2027 最可怕的未来
  43. 中国多地临时取消2026跨年夜活动 大批网友失望
  44. 从回归到不归——李志绥的心路历程
  45. 为优先登机,全球机场被“装残党”们玩坏了
  46. 缅甸军政府组织议会选举
  47. 人民日报喊话,川普你听到了吗?
  48. 中国邀请泰柬外长在云南举行会谈
  49. "我们会投票,但不是出自真心",走进缅甸军政府精心策划的大选
  50. 江特电机做空碳酸锂期货,浮亏超千万
  51. 在风化岩塔与热气球之间漫游卡帕多奇亚
  52. FBI介入明州托儿所骗案:直指“冰山一角”
  53. 【直播】川普与泽连斯基举行双边会晤
  54. 中共支持的缅甸军政府在批评声中举行大选
  55. 联合国吁缅甸举行自由、公正的选举
  56. 辽宁女子6年前3.6万买钻戒 如今只卖四五百
  57. FBI总部胡佛大楼将“永久关闭”
  58. 机器人测试时对工程师送上“恶毒”一脚
  59. 德国汽车之都面临财政危机
  60. 中国社群惊传琉球回归假信息 日本女子偶像团体也遭殃