白宫向Anthropic发出最后通牒-墙外头条

川普政府就旗舰AI模型安全漏洞问题向Anthropic发出最后通牒，但独立安全专家警告称，白宫的要求或许根本无法实现。

18日，川普政府官员告诉媒体，若Anthropic希望重新发布旗舰模型Claude Fable 5，该公司必须切实解决政府所指的安全漏洞，而非继续辩解相关风险是否被高估。这一立场标志着双方分歧正迅速走向摊牌。Fable 5于上周因越狱（jailbreak）担忧而被出口管制措施迫使下线——越狱是指通过特定提示词绕过模型安全护栏的攻击手法。

Anthropic方面在与商务部及国家网络总监办公室Sean Cairncross的周一技术会议上重申，政府的担忧被过度渲染，越狱攻击的实际影响有限。然而，美国国家安全局（NSA）已得出结论：Fable 5的安全护栏存在可被绕过的途径，这些护栏原本用于防止用户访问其底层模型Mythos在网络安全、化学和生物领域的敏感能力。据媒体援引三位知情人士透露，政府目前实际上已将解决问题的责任完全归于Anthropic，而非试图共同介入排查。

这场监管拉锯战揭示出AI治理的深层困境：政府是否有能力、有意愿对前沿模型安全负责，以及"无越狱"这一监管目标是否具备技术可行性，直接影响Anthropic及整个AI行业的商业前景。

政府划定红线：主动测试，主动上报

据媒体援引知情人士透露，商务部AI标准与创新中心及NSA均表示，没有足够人员和精力去追踪市场上每一款模型的所有潜在越狱路径。基于这一现实，政府的立场已从"与Anthropic共同界定风险严重程度"转向"要求Anthropic承担全部合规责任"。

官员明确要求，Anthropic不仅需解决Fable 5的现有问题，还应对其所有前沿AI模型持续开展主动安全测试，自行发现潜在越狱漏洞，并主动向政府报告。这实际上意味着，政府要求Anthropic建立一套以企业自我监管为核心的合规机制，而非依赖监管机构的外部审查。

白宫发言人拒绝就此事置评。

技术争议：安全护栏是否有解？

围绕这场监管博弈，一个更根本的技术问题正在浮出水面：完全阻止越狱是否可行？

独立网络安全专家的主流观点日益倾向于否定。专家认为，AI模型的安全护栏本质上只是临时性的防御措施，熟练用户乃至未来的AI模型终将找到绕过限制的方法。这意味着白宫所要求的目标，在技术上存在根本性障碍。

Anthropic上周已向政府表达了类似立场，坚持认为越狱影响"微乎其微"，但这一论点显然未能说服官方——NSA的技术评估成为政府立场的关键依据，使双方在事实层面的分歧难以弥合。

对Anthropic而言，Fable 5的下线不仅意味着商业损失，更预示着未来每一款前沿模型在发布前都可能面临类似的监管障碍。若"零越狱"成为不成文的上市门槛，整个AI行业的研发节奏和商业化路径将面临实质性压力。