Mythos 5为何让美政府担心到需要介入?

2026-06-29 14:25:40 · chineseheadlinenews.com · 来源: 上报

创新与治理的两难

2026 年 6 月 13 日,Anthropic 表示,美国政府基于国家安全与出口管制要求,限制部分外国使用者存取Mythos 5等高阶模型。

当AI模型开始提供某些原本需要专业人士才能掌握的能力时,受到挑战的便不只是产业本身,而是各种建立信任的制度。(法新社)

这个Mythos 5 AI 模型究竟具备了什么能力,让美国政府认为需要介入?

6 月 2 日,Anthropic 公开 Mythos Preview 的最新安全评估。根据 Anthropic公开资料,Mythos Preview已协助发现数千个高严重性漏洞,涵盖主要作业系统、浏览器与开源软件专案。其评估报告甚至提到,模型曾写出可串接多个漏洞的浏览器exploit,并能取得 Linux系统的本地提权exploit。在资安领域,这代表模型同时具备“发现弱点”与“利用弱点”的能力。

英国 AI Security Institute 随即于 6 月 6 日公布 Mythos Preview的独立评估。报告指出,Mythos Preview在多步骤资安任务中的表现明显提升,已能利用安全防护薄弱的系统,并提醒未来可能出现更多具备类似能力的模型。

这里让人不安的事实是:同一个模型,一方面被 Anthropic用于保护关键软件与基础设施,另一方面又被政府视为需要限制存取的国安风险。创造与治理的两难,并不是抽象推论,而是已经出现在 Mythos5 的存取争议之中。

这个争议在探讨的是,当模型开始提供某些原本需要专业人士才能掌握的能力时,受到挑战的便不只是产业本身,而是各种建立信任的制度。

因为不同制度真正想验证的对象并不相同。有些制度希望确认受评者是否具备特定能力;有些制度重视观点是否具有价值;有些制度关心成果是否有效;有些制度重视系统是否可靠;有些制度则关心决策权限与责任归属是否清楚。

因此,同样是 AI 参与工作,不同制度所面对的挑战也完全不同。

能力验证

不论是博士学位、医生执照、飞行员执照、技师考试或会计师考试,这类制度本质上都在回答同一个问题:受评者是否具备完成特定工作的能力。因此,制度通常会透过论文、实作测验、临床训练或专业考试等方式间接验证能力。

在这类制度中,成果之所以重要,并不是因为成果本身,而是因为成果被视为受评者具备相关能力的证明。

论文之于博士学位,正如飞行测验之于飞行员执照。制度真正要确认的,是完成作品所需的核心能力,是否由受评者掌握。

因此,当 AI 开始参与研究、设计、分析与问题解决之后,制度面临的核心问题便是:哪些能力可以交由 AI协助?哪些能力必须由人亲自掌握?

如果一名医学生利用 AI完成文献整理与病例分析,制度真正想确认的,究竟是他是否能取得答案,还是他是否具备独立诊断与判断风险的能力?

如果一名工程师大量依赖 AI 完成设计工作,制度真正想验证的,又是设计成果本身,还是工程师是否理解设计背后的原理与限制?

因此,在能力验证型制度中,AI 本身未必构成风险。真正的制度风险在于,当 AI完全取代制度原本想验证的核心能力时,制度便可能无法再透过成果确认能力是否由受评者掌握。

Anthropic 表示,美国政府基于国家安全与出口管制要求,限制部分外国使用者存取Mythos 5 等高阶模型。(法新社)

观点验证

有些制度或社会活动所重视的,并不是专业能力,而是新的观察是否被提出、重要经验是否被看见,以及有价值的主张是否能够进入公共讨论。

一位长期投入长照服务的人,希望分享第一线照护经验,但文笔不佳;一位身障者,希望让更多人理解生活中的限制与困境;或一位投入公益工作的倡议者,希望把多年观察整理成文章。在这些情况下,AI可以协助整理架构、修饰文字与改善表达。

人们通常不会优先追问文字是否逐字由本人完成,而更关心文章是否提出值得讨论的观察、经验与观点。因为在这类情境中,真正重要的往往不是表达本身,而是表达背后的内容。

AI 可以协助写作,但无法取代长期照护现场的观察;AI 可以协助组织文字,但无法取代身障者的生活经验;AI可以协助形成论述,但无法取代多年累积的实务参与。

因此,在观点验证型制度中,被验证的核心并不是写作能力,而是观点是否建立在真实观察之上、是否具有讨论价值,以及是否经得起公共检验。

近年许多大学与研究机构对生成式 AI 的讨论,也开始从“能不能使用AI”逐渐转向“如何确认学生是否具备提出问题、判断证据、辨识假设与形成观点的能力”。

因为当 AI 能够协助完成摘要、整理文献与形成论证架构时,真正需要被评量的,可能已不再是文字产出能力,而是形成观点的能力。

成果验证

在商业研发与工程领域,制度往往更关心成果是否成立。例如药物研发、新产品开发、工程设计、商业创新或火箭研制。

在这些领域中,人们最终关心的往往不是研究过程由谁完成,也不是某项能力是否完全由人掌握,而是成果是否真的有效。

一种药物能否治疗疾病;一项技术能否解决问题;一枚火箭能否成功升空;一家企业能否创造价值。

从这个角度来看,Mythos 5的争议其实具有双重意义。一方面,各界关注它是否具备发现高风险漏洞的能力;但另一方面,对软件开发者、企业与基础设施营运者而言,更重要的问题往往是:模型所发现的漏洞是否真实存在,以及是否能够被有效修补。

一个不存在的漏洞,即使由世界顶尖专家提出,也没有价值;一个真实存在的漏洞,即使由 AI 发现,也必须被处理。

因此,在成果验证型制度中,被验证的核心并不是能力来源,而是成果是否成立。

事实上,资安领域长期以来便存在类似逻辑。企业之所以投入漏洞奖励计划(Bug BountyProgram),并不是因为特别在意漏洞由谁发现,而是因为漏洞一旦被证实存在,就代表系统需要修补。制度真正关心的,是漏洞是否真实,而非发现者的身分。

因此,在成果验证型制度中,AI的出现未必削弱制度功能,反而可能提高问题发现速度、缩短研发周期,并提升成果产出效率。制度真正需要确认的,始终是成果是否有效。

系统验证

当系统必须长期运作于复杂且不断变动的环境中,单次成功已不足以构成证明。

航空运输、核能设施、金融交易系统、医疗照护系统、半导体制造与电力系统,都属于高度依赖可靠性的系统。

在这些场景里,最重要的往往不是某个人是否优秀,也不是单一成果是否成功,而是整体系统是否能够持续、稳定且安全地运作。

一位优秀飞行员,无法保证航空系统可靠,一位优秀工程师,也无法单独保证核能系统安全。真正被验证的,是整体系统在面对异常、错误与不确定性时,是否仍能维持可接受的风险水准。

这也是为什么航空产业重视备援设计、核能产业重视防呆机制、半导体产业重视品质管理与追溯系统。

制度验证的对象,从来不是个人,而是系统。因此,当 AI开始导入工厂、医院、金融机构与关键基础设施时,制度真正需要回答的问题便不再是AI 是否聪明,而是 AI 是否能够被纳入既有控制机制、责任架构与风险管理体系之中。

在系统验证型制度里,AI 的价值不取决于它能完成多少工作,而取决于它是否能在不降低系统可靠性的前提下参与工作。

治理验证

当工作涉及多个参与者、多重决策与跨组织协作时,即使具备能力、成果成立、系统可靠,问题也未必因此消失。因为此时制度需要回答的,已不再是能力问题、成果问题或系统问题,而是治理问题。

谁提出判断?谁验证判断?谁核准执行?谁承担责任?

在企业里,重大投资决策通常需要经过提案、审查与核准程序;在医疗体系中,特定治疗方案可能需要跨科会诊;在航空、核能与半导体产业,重大异常处置往往涉及多层级审核与责任归属。

这些制度存在的目的,并不是因为参与者缺乏能力。相反地,正是因为不同参与者都可能具备能力、提出合理判断,甚至拿出可行方案,制度才需要进一步确认:谁有权做出最终决定,以及谁应对决定结果负责。

因此,治理验证所关注的,并不是能力是否由特定参与者掌握,也不只是成果是否有效,而是决策权是否被正当授予、责任是否被清楚界定,以及制度是否知道由谁承担后果。

从这个角度来看,2026 年6月 G7 讨论 Trusted Partners机制,以及美国政府要求限制部分高阶模型存取权限,所面对的其实已经不是单纯的技术问题,而正是因为Mythos 5争议的特殊之处,不是能力争议,而是能力授权争议:能力已经强到必须讨论谁可以取得这些能力。

谁有资格取得这些能力?谁有权使用这些能力?又应由谁对能力造成的结果负责?这些问题,本质上都属于治理问题。

AI 非战之罪:创新与治理 不是二选一

事实上,同一种能力既能被用来保护世界,也能被用来攻击世界;既能推动创造,也会要求新的治理,这并不表示创造与治理必然冲突。

2025 年,荷兰莱顿大学进行一项实验,一名学生刻意以 ChatGPT 与 Claude作为主要论文指导工具完成研究。值得注意的是,校方讨论的焦点并不是 AI 能不能写论文,而是当 AI已经能够参与知识生产之后,大学应如何重新设计评量与指导制度。

换句话说,莱顿大学并没有把“使用 AI”直接等同于制度风险。相反地,校方开始重新思考:在 AI已经成为知识工作一部分的情况下,大学究竟希望透过论文制度验证什么。

这项实验揭露了一个重要事实:制度风险未必来自 AI 本身,而更可能来自制度目的与验证机制之间的不一致。

只有先厘清制度原本想验证的对象,才可能进一步判断 AI 的参与究竟是在协助制度运作,还是在破坏制度存在的基础。

随着火星聚落构想逐渐从科幻走向工程,国际研究已不再只关注如何抵达火星,也开始讨论火星聚落应该如何治理。从共享资源管理、技术标准建立,到跨聚落协调与权限配置,治理问题已经成为火星计划的一部分。

只有当一件事情开始变得可能,人们才需要讨论如何管理它。Mythos 5 所揭露的,正是同样的讯号。

如果模型没有能力发现漏洞,美国政府不会介入;如果模型无法影响关键基础设施,G7 不会讨论 TrustedPartners;如果火星聚落仍停留在科幻小说里,研究者也不会开始讨论治理架构。

治理问题之所以出现,不是因为创新失败。恰恰相反,正是因为创新迈向成功。


    24小时新闻排行榜更多>>
  1. 安徽合肥上千人堵路抗议 成功逼停当局大型项目
  2. 本轮牛市走到哪儿了,未来剧本会是怎样?
  3. 北京“轻型机撞楼”事件 扯下绝对安全的神话
  4. 致莫言先生的公开信,文学家身份与无法逃离的责任
  5. 出生人口腰斩:中国正面对比房价下跌更大的危机
  6. 一条“黑料”3000元,千万大V有偿删帖
  7. 禁飞区如虚设 刘俊华决死撞“一尊” 三巧合解读真相
  8. 中俄联合空中战略巡航阵容强大,日本慌了?
  9. 20年研究:80岁后多吃肉更长寿,活100岁机率增29%
  10. "韩流"带旺旅游 外国游客5月消费创新高
  11. 蒋介石遇“斩首行动”官邸情报是如何泄漏的?
  12. 香港女星陈伶俐删夫妻合照
  13. 蔡英文赴义出席女性峰会 分享台湾民主经验
  14. “娶妻不娶仰头女 嫁汉不嫁低头汉”什么意思?
  15. 日本最东端有了导弹发射装置
  16. 中国"高德地图"跨境定位风险:每3秒回传位置信息
  17. 川普痛骂华府准市长为共产主义者
  18. 白人姐妹流利中文吸睛 分享跨文化成长路
  19. 川普私生活曝:深夜吃零食,乱扔垃圾
  20. 台湾出席“矽盛世”峰会 美国务院:台湾是AI革命要角
  21. 非法捕捉并饲养野生幼鹿,湾区居民遭罚
  22. 纽约骄傲大游行,台湾变装皇后亮相
  23. 川普晒年少照PK奥巴马!网友:奥巴马气场完胜
  24. 凯特王妃24小时独自登英国三高峰 戴妃蓝钻婚戒耀眼
  25. 拜登火力全开痛批川普:贪腐规模美国史上未见
  26. 内蒙古大货车集体冲卡 交警拦不住差点被撞倒
  27. 孩子不爱吃菜?这5种伪装做法百试百灵
  28. 小S和老公十指紧扣秀恩爱
  29. 60%中学生长大最想做这职业
  30. 欧洲越来越多民众死于酷热 “装不装空调”引发激辩
  31. 出现这20种行为 极可能是“高智商”孩子!
  32. 2026,如何驐脱一个特务
  33. 马克龙将与阿曼苏丹会面
  34. 美国能避免出现"马云时刻"吗?
  35. 女贼偷钱未遂衣服脱落半裸逃离后折返要求删录像
  36. 毒贩“标价”缉毒警:人头200万,手30万
  37. 驻日美军航母成:毒窝"!美国水兵坠楼引惊天大案
  38. 破“一中市场”迷思 台湾竞争力攀全球第4
  39. 许家印18亿豪宅被流浪汉占领
  40. 中国“微短剧”热潮,吸引好莱坞明星跟进
  41. 中方再次扩大对日出口管制,日方回应
  42. 苹果想从长鑫买内存,郭明錤爆真正原因
  43. 不要指望中国让步!“习近平比川普更可信”
  44. 巴西迎战日本,德国荷兰谁先晋级?
  45. “跨栏女神”吴艳妮睡过头罕见“素颜出赛” 网友认不出
  46. 这国抓中国间谍遭报复?北京祭出“鲑鱼制裁”?
  47. 普京首提命运攸关,承认处境严峻
  48. 美媒曝王岐山被软禁 习为扫除四连任障碍 下狠手
  49. 美伊再度交火,伊朗力保海峡控制权
  50. 川普再败诉!最高法院阻止他罢免美联储理事库克
  51. 最高法院不给翻案机会 川普性侵案判决正式生效
  52. 小飞机撞击“中国尊”后 中国全境停飞轻型固定翼飞机
  53. 马克龙迎外宾全程戴墨镜?
  54. 川普发“扛起地球”AI照 伊朗以色列都不服?
  55. 体重可达450公斤的大猫?曾与剑齿虎并列顶级掠食者
  56. 从盟友到潜在威胁 习近平整肃王岐山 为连任扫障碍
  57. 谁能预测股市——“1929”读后感
  58. 浙江一派出所集体夜店“嫖娼”被抓 官方隐瞒不报
  59. "一天下了一年的雨":干旱小城,被打乱的生计与稳定
  60. 这些西方人为逃离“觉醒文化”搬去俄罗斯 如今却落得…