GPT-5.6终于来了，但被加了“白宫安全锁”-墙外头条

北京时间6月27日凌晨，OpenAI正式发布了新一代模型系列GPT-5.6的有限预览版。

OpenAI CEO奥特曼发布GPT-5.6。图片由AI生成

这个系列包含三个不同定位的模型。其中，旗舰模型Sol主打复杂推理和高难度任务，Terra是面向大批量商业应用的平衡模型，Luna则是负责处理日常任务的轻量级模型。不过，三款模型在发布当天并没有面向所有用户开放。

OpenAI在官方博客里提到，该公司事先已经向美国政府预览过模型能力与发布计划。应政府要求，这次会先向一小批“已与政府共享参与信息的可信赖合作伙伴”开放，之后再逐步扩大范围。

能力方面，GPT-5.6带来了几个关键变化。

Sol引入了“超极模式”，能通过子智能体来拆分和加速复杂任务，在考察命令行操作能力的基准测试Terminal-Bench2.1上拿到了91.9%的分数。Terra的性能与上一代GPT-5.5相当，但成本降了一半。Luna则以全系列最低的价格，提供了接近GPT-5.5的能力。

整个GPT-5.6系列配备了OpenAI迄今为止最强大的分层安全防护，投入了超过70万个A100等效GPU小时来做自动化红队测试。OpenAI也在发布时特别强调，Sol更擅长帮防御者发现和修复漏洞，而不是自主执行完整的攻击链。

01 命名背后暗藏定位逻辑

这次GPT-5.6系列引入了一套新的命名方式。

其中，数字部分代表代际，GPT-5.6就是第五代的第六个版本。Sol、Terra和Luna这三个名字则代表能力层级，每个层级可以按自己的节奏迭代发展，不再被具体版本号绑死。OpenAI解释说，这么做是为了让用户和开发者在智能、速度和成本上能有更清晰的选择。

VentureBeat援引知情人士的消息称，这套新命名还有一个目的，就是彻底告别之前GPT-5系列里nano和mini的叫法。那些小模型在规模或原始智能上差异并不大，而新的Sol、Terra、Luna是专门针对完全不同的使用场景来设计的。

Sol是顶级选项，为最困难的问题而构建，比如复杂推理、长时间编码、高级智能体工作流和安全重点应用。它的定价是每百万token输入5美元、输出30美元，与上一代GPT-5.5持平。

前沿AI模型API定价对比

Terra适用于大批量生产环境，像客户支持、内部工具和文档分析这类需要可靠结果但又用不着顶端模型开销的任务，每百万token输入2.5美元、输出15美元，性能与GPT-5.5相当，但成本只有后者的一半。

Luna则面向速度优先的日常场景，如摘要、起草和常规自动化，在响应速度和可扩展性比推理深度更重要的地方发挥作用，每百万token输入1美元、输出6美元，是全系列最经济的选择，但在多项测试中表现仍然接近GPT-5.5的水平。

知情人士还提到，Sol这个名字与OpenAI的Daybreak自愿计划很契合，这个计划面向有兴趣用AI加强网络防御的组织。至于ChatGPT语音模式里曾经出现过的“Sol”语音风格，跟这次命名没有关联，很可能会被重新命名。

02 全系被标为高风险

GPT-5.6系列模型的系统卡里，有一个变化很值得注意。

OpenAI把三款模型全部在网络安全和生物化学领域标注为“高风险”。这是该公司第一次把新发布系列中的小型快速模型也放进这个等级。按照OpenAI的说法，这种情况以前没出现过，说明GPT-5.6整代模型在敏感领域的能力都有了系统性的提升。

最能说明网络安全能力整体抬升的，是OpenAI内部一套叫“夺旗测试”的评估。夺旗是网络安全领域的术语，指的是在一个模拟环境里，攻击方需要利用系统漏洞一步步渗透进去，最终拿到藏在服务器里的目标文件，这个过程叫“夺旗”。

这次GPT-5.6系列三款模型的成绩是，Sol达到了96.7%，Terra是91.84%，Luna是85.19%。三个分数全部超过了OpenAI内部划定的高风险门槛。这意味着，即使是最轻量、最便宜的Luna，在网络攻防这个维度上，也已经具备了需要被严格管控的能力水平。

内部“夺旗”测试中，三款新模型全部跨越高风险门槛

生物学领域的情况也同样突出。

在一项病毒学故障排除测试中，GPT-5.6Sol得分55.5%，而专家表现的阈值才31%，差距相当大。在SecureBio进行的多项专家级生物测试里，GPT-5.6都达到了新高，人类病原体能力测试得分68.4%，世界级生物测试得分68.3%。

OpenAI自己的评估框架显示，Sol在四个高阈值生物评估中越过了其中三个的界限，但在三个关键级别的生物设计评估中则没有越界。也就是说，在分析和故障排除层面，模型已经远远超出专家基准线，但在涉及生物设计这种更敏感的创造层面，它还没有达到关键阈值。

专注于评估前沿AI模型自主能力和潜在风险的非营利性研究与评估组织METR，对GPT-5.6Sol智能体行为的评估也记录了一些值得留意的情况。

测试发现，GPT-5.6Sol在编码时有过几次超出用户原始意图的行为，比如删除了错误的虚拟机、声称一项未完成的研究已经得到验证、未经许可移动了缓存凭证，甚至有时候会试图操纵测试过程，而不是单纯完成被布置的任务。

METR指出，这意味着基准分数不能完全当作模型能力的纯净衡量。另外，GPT-5.6控制自身推理轨迹的能力也变强了，在约5000个token的思维链测试中，成功率达到1.3%，而GPT-5.5在这个指标上只有0.4%。

这些数据综合起来，解释了为什么OpenAI在预览期要分阶段发布。基准测试的阈值无法覆盖模型可能被使用或与其他工具结合的所有方式，能力的大幅跃升带来了不确定性，而更强的安全防护和更审慎的发布节奏，正是应对这种不确定性的组合手段。

03 Sol的超级模式

GPT-5.6 Sol在技术上最明显的变化，是引入了一种叫“超级模式”的运行方式。

这个模式的核心思路是，不再让模型在单个智能体流程里从头到尾硬啃复杂项目，而是允许它调用多个子智能体，把大任务拆解成可以并行推进的部分，最后再把结果整合起来。对于那些需要长时间规划、反复试错、同时协调多种工具的智能体类工作，这个模式能给出比过去更快的执行路径。

这个改进在Terminal-Bench2.1上表现得很直接。这是一项考察模型在命令行环境中完成规划、迭代和工具协调能力的测试，贴近开发者日常的真实工作流程。Sol在超级模式下拿到91.9%，创下新纪录，即便是在最大推理模式下也有88.8%的表现。

在Terminal-Bench 2.1测试中，GPT-5.6 Sol超极模式以91.9%得分刷新纪录

相比之下，OpenAI上一代模型GPT-5.5得分83.4%，Anthropic的Claude Mythos5是88%，Terra拿到82.5%，Luna是78.9%，Claude Opus 4.8是84.3%，Gemini 3.1Pro预览版是70.7%。Sol的领先幅度很明显，而Terra在平衡了成本之后也保持了有竞争力的分数。

在生物学领域，GPT-5.6 Sol超极模式同样展现出效率方面的改善。GeneBenchv1是一个评估长期基因组学和定量生物学分析能力的基准测试，Sol使用比GPT-5.5更少的输出token，却拿到了更高的分数。也就是说，它在给出更精准答案的同时，消耗的计算资源反而更少了。

GeneBench v1上，GPT-5.6 Sol以少于GPT-5.5的输出token获得更高分数，效率与精度同步提升

GPT-5.6 Sol是OpenAI目前在网络安防方面能力最强的模型。

在漏洞利用基准测试ExploitBench上，Sol的表现与Anthropic的MythosPreview接近，关键差异在于成本。

从数据来看，Sol在输出约120K token时得分大约70%，而MythosPreview要达到相近分数需要用到三倍左右的token量。同时，Sol的表现远高于GPT-5.5，也明显领先于Terra和Luna。

在ExploitBench测试中，Sol用Mythos Preview1/3的token达相近得分，远超GPT-5.5及同系模型

另一个网络基准测试ExploitGym由加州大学伯克利分校的研究人员与OpenAI等前沿实验室合作创建。Sol、Terra和Luna三款模型在这里都显示出，随着推理时间增加，网络能力持续提升的趋势。

在6小时时限下，Sol的预期利用成功率明显高于2小时时限下的表现，Terra和Luna也跟随同样的上升曲线，只是整体表现略低一些。

在ExploitGym测试中，推理时间越长，三款模型网络能力提升越显著

不过，OpenAI在发布时反复强调了一个边界。根据公司的准备框架，GPT-5.6Sol并没有达到网络关键阈值。在涉及Chromium和Firefox的测试环境中，Sol能识别出漏洞和利用原语——也就是构成利用程序的基本模块，但还不能在没有人类指导的情况下把它们拼成一个完整的攻击工具。

这个分寸感在外部测试的结果里也能找到对应。安全公司Irregular的测试中，Sol解出了全部19道前沿网络挑战题，22个中高难度原子级网络挑战也全部完成，但在11个长时间网络攻防场景里只完成了7个。

长时间场景更接近真实世界的攻击行动，需要跨多个系统、多步骤协调和持续对抗，复杂度和不确定性都比短平快的单点挑战高得多。Sol在这些长链条任务里还没做到全部通关，这也印证了OpenAI说的，它在“帮人发现和修复漏洞”上很强，“自主执行端到端攻击”上还有距离。

知名AI博主@swyx在社交媒体上分享了他的实际使用体验，说自己已经用了一段时间的GPT-5.6，对模型很满意。他强调不能只把Sol看作一个“网络安全版本”，对他而言这是新的顶尖工作模型，在他80%的任务里完全取代了之前用的Opus。

@swyx特别引用了官方博客里的一句话：GPT-5.6 Sol只用了大约三分之一的输出token，就达到了与MythosPreview相当的水平。在他看来，这说明OpenAI的后训练团队在推理效率上做了大幅度推进，而这一块正是目前企业级智能体模型竞争中最关键的优势。

他甚至觉得这次版本升级的幅度超过了从GPT-5.4到GPT-5.5那次跳跃，直接叫它GPT-6也不为过。

04 政策博弈下的分阶段发布

GPT-5.6没有全面开放，这个安排涉及到两个背景：一是川普总统在6月2日签署了AI监督行政命令，二是Anthropic的模型刚被政府限制出口。

据《华尔街日报》报道，OpenAI在政府下达对Anthropic的禁令前就已开始讨论GPT-5.6的发布安排。发布前三天，CEO山姆·奥特曼还专门与商务部长卢特尼克沟通了分阶段发布的计划。

但OpenAI表示，这种政府接入流程不应成为长期的默认做法，“它会让最好的工具无法到达真正需要的用户、开发者、企业和网络防御者手里。”

OpenAI选择此时分阶段预览，本质上是在能力演进与政策约束之间寻找当下的平衡点。