Sonnet 4.6操作电脑接近人类
2026-02-17 11:25:43 · chineseheadlinenews.com · 来源: 华尔街日报
继发布新旗舰模型Claude Opus 4.6后不到两周,OpenAI的劲敌Anthropic于再次推出重磅产品Claude Sonnet 4.6,以中端的价格提供接近旗舰级模型的智能水平,这对AI行业构成了一次重大的定价格局重塑。
美东时间2月17日周三,Anthropic官宣发布Claude Sonnet 4.6,新模型在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级,定价与前代Sonnet 4.5相同,仍为每百万token输入3美元、输出15美元,但据称性能已接近定价为每百万token输入15美元、输出75美元的旗舰Opus模型,且定价却只有后者的五分之一。
对于每天进行数百万次API调用的企业部署AI智能体而言,这一成本性能比的改变具有变革意义。在操作电脑能力方面,Sonnet 4.6在标准基准测试OSWorld上得分达72.5%,不到一年半时间提升到接近人类水平。在早期测试中,开发者在约70%的情况下更偏好Sonnet 4.6而非前代Sonnet 4.5,甚至在59%的情况下更偏好它,而非去年11月发布的旗舰模型Opus 4.5。
此次发布正值Anthropic加速进军企业市场。据报道,Anthropic上周五刚以3800亿美元估值完成300亿美元的新融资,估值较去年9月翻倍。同在本周三,印度IT巨头Infosys宣布与Anthropic合作,将Claude模型整合至其Topaz AI平台,用于银行、电信和制造业。Anthropic还在班加罗尔开设了首个印度办事处。
操作电脑能力16个月提升五倍 接近人类水平
新模型再次证明,Anthropic在操作计算机的能力上进步尤为显著。
2024年10月首次推出这一功能时,Anthropic曾坦承"仍处于实验阶段——有时笨拙且容易出错"。此后的数据显示,该司的模型进步速度惊人:Sonnet 3.5在2024年10月的OSWorld基准测试中得分14.9%,Sonnet 3.7在2025年2月达到28.0%,Sonnet 4在同年6月达到42.2%,Sonnet 4.5在同年10月攀升至61.4%,本周三发布的Sonnet 4.6已达到72.5%。
OSWorld基准测试在模拟计算机上呈现数百项跨越Chrome、LibreOffice、VS Code等真实软件的任务,没有特殊API或专用连接器,模型像人类一样通过点击虚拟鼠标和虚拟键盘与计算机交互。Anthropic表示,该模型能够处理导航复杂电子表格或填写多步骤网页表单等任务,然后在多个浏览器标签页间整合信息。
这一能力对企业应用至关重要。几乎每个组织都有难以自动化的遗留软件——保险门户网站、政府数据库、企业资源规划系统、医院排班工具——这些都是在API出现之前构建的。一个能够像人一样查看屏幕并与之交互的模型,无需构建定制连接器就能实现这些系统的自动化。
Pace首席执行官Jamie Cuffe表示,Sonnet 4.6在该公司复杂的保险计算机使用基准测试中达到94%的准确率,是所有Claude模型中表现最好的。"它以我们从未见过的方式进行故障推理和自我纠正,"Cuffe说。Convey联合创始人Will Harvey称其为"我们在评估中测试过的所有模型中的明确改进"。
Anthropic还指出,计算机操作存在提示注入攻击风险——恶意行为者在网站上隐藏指令以劫持模型。该公司的评估显示,Sonnet 4.6在抵御此类攻击方面较Sonnet 4.5有重大改进。
编程能力大幅提升,开发者偏好度超前代旗舰
在Claude Code中,Anthropic的早期测试发现,开发者在约70%的情况下更偏好Sonnet 4.6而非Sonnet 4.5。用户报告称,新模型在修改代码前更有效地读取上下文,合并共享逻辑而非重复,这使得它在长时间使用时比早期模型更不令人沮丧。
用户甚至在59%的情况下更偏好Sonnet 4.6而非去年11月的旗舰模型Opus 4.5。他们评价Sonnet 4.6显著降低了过度工程化和"懒惰"倾向,在指令遵循方面明显更好。他们报告称虚假成功声明更少,幻觉更少,多步骤任务的持续执行更一致。
早期客户反馈突出了前端代码和金融分析方面的改进。多位测试者独立描述称,Sonnet 4.6的视觉输出明显更精致,布局、动画和设计感都优于以前的模型。客户达到生产质量结果所需的迭代轮数也更少。
Cursor联合创始人兼首席执行官Michael Truell表示:"Claude Sonnet 4.6在各方面都显著优于Sonnet 4.5,包括长期任务和更困难的问题。"GitHub产品副总裁Joe Binder证实,该模型"已经在复杂代码修复方面表现出色,尤其是在跨大型代码库搜索至关重要时。对于大规模运行智能体编程的团队,我们看到了强劲的解决率和开发者所需的一致性。"
CodeRabbit AI副总裁David Loker称该模型"在绝大多数实际PR中远超其重量级"。Factory AI的Leo Tchourakov表示团队"正在将Sonnet流量转移到这个模型"。Hercules创始人兼首席执行官Brendan Falk更直言:"Claude Sonnet 4.6是我们迄今见过的最好模型。它具有Opus 4.6级别的准确性、指令遵循和用户界面,而成本显著更低。"
中端价格提供旗舰性能,大规模部署成本锐减
Sonnet 4.6的定价策略是此次发布最重要的看点。定价维持在每百万token输入3美元、输出15美元,与前代Sonnet 4.5相同。而Anthropic的旗舰Opus模型定价为每百万token输入15美元、输出75美元——是Sonnet价格的五倍。
据Anthropic称,以前需要使用Opus级模型才能达到的性能——包括在实际具有经济价值的办公任务上——现在通过Sonnet 4.6即可获得。对于目前部署每天进行数百万次API调用的AI智能体的数千家企业而言,这一成本计算改变了一切。
据Venture Beat报道,在许多企业最关心的类别中,Sonnet 4.6的表现匹配甚至超越了运行成本高出五倍的模型。一家运行每天处理1000万token的AI智能体的企业,以前被迫在较低成本的劣质结果和快速扩大支出的优质结果之间选择。Sonnet 4.6在很大程度上消除了这种权衡。
多位早期测试者明确描述Sonnet 4.6消除了使用更昂贵Opus层级的必要性。Hex Technologies首席技术官Caitlin Colgrove表示,该公司正将大部分流量转移到Sonnet 4.6,指出"除了最困难的分析任务外,我们在所有任务上都看到了Opus级别的性能,且具有更高效和灵活的配置。在Sonnet定价下,这对我们的工作负载是显而易见的选择。"
Box首席技术官Ben Kus表示,该模型在真实企业文档的重度推理问答中比Sonnet 4.5高出15个百分点。Replit总裁Michele Catasta称性能成本比"非凡"。Mercury Banking的Ryan Wiggins更直白地说:"Claude Sonnet 4.6更快、更便宜,而且更有可能第一次就搞定。这种改进组合令人惊讶,我们没想到会在这个价位看到它。"
百万token上下文窗口实现长期战略规划
Sonnet 4.6配备100万token的上下文窗口(测试版),足以在单个请求中容纳整个代码库、冗长合同或数十篇研究论文。更重要的是,Anthropic称该模型能够有效地跨所有上下文进行推理。
该公司通过一项不寻常的评估展示了这一能力。Vending-Bench Arena测试模型长期运营模拟业务的能力,不同AI模型相互竞争以获得最大利润。在没有人工提示的情况下,Sonnet 4.6开发出一种新颖策略:它在前十个模拟月中大量投资产能,支出显著高于竞争对手,然后在最后阶段急剧转向专注盈利。该模型在365天模拟结束时约有5700美元余额,而Sonnet 4.5约为2100美元。
这种自主执行的多月战略规划代表着一种质的不同能力,超越了回答问题或生成代码片段。这是使AI智能体适用于实际业务运营的长期推理类型。
激烈竞争背景下的快速发布节奏
Sonnet 4.6的发布正值AI行业激烈竞争时期。这是Anthropic在不到两周内的第二次重大AI模型发布,体现了在行业中保持竞争力所需的快节奏开发。Anthropic在12天前刚刚推出了Claude Opus 4.6。
Anthropic的快速进展也加速了软件股近期的大规模抛售。投资者越来越担心AI可能颠覆这些业务,iShares扩展科技软件行业ETF今年以来已暴跌逾20%。Sonnet 4.6不太可能缓解这些担忧,因为Anthropic表示该模型将为更多用户带来"大幅改进的编程技能"。
据彭博报道,Anthropic的近期进展引发了华尔街的担忧。该公司悄然发布的自动化某些法律工作的工具,在本月早些时候引发了市场崩盘,特别是投资者担心最终可能被淘汰的软件公司。Anthropic发布的新版Opus模型旨在更好地进行财务研究后,金融服务类股也大幅下跌。这些反应反映了人们对哪些公司和服务最终将被AI颠覆的广泛担忧。
据TechCrunch报道,Anthropic首席执行官Dario Amodei表示,"在演示中有效的AI模型与在受监管行业中有效的模型之间存在巨大差距",Infosys帮助弥合了这一差距。TechCrunch还报道称,印度目前约占全球Claude使用量的6%,仅次于美国。
在竞争格局中,Sonnet 4.6在多个基准测试中超越了Google的Gemini 3 Pro和OpenAI的GPT-5.2。GPT-5.2在智能体计算机使用(38.2%对72.5%)、智能体搜索(77.9%对74.7%)和智能体金融分析(59.0%对63.3%)方面落后。Gemini 3 Pro在视觉推理和多语言基准测试上表现竞争力,但在企业投资激增的智能体类别上落后。
据CNBC报道,OpenAI也在与投资者进行融资谈判,融资额可能接近1000亿美元。
Claude Sonnet 4.6现已在所有Claude计划、Claude Cowork、Claude Code、API和所有主要云平台上提供。Anthropic还将其免费层级默认升级为Sonnet 4.6。开发者可以通过Claude API使用claude-sonnet-4-6立即访问。