Twitter

Facebook

微信

Claude Opus4.7为何么被全网吐槽？

2026-04-17 13:25:39 · chineseheadlinenews.com · 来源: 新智元

今天AI圈最大的新闻，莫过于Claude发的新模型了。

本来发之前呢，被大伙寄予厚望，因为Claude Opus 4.6就够强了，前几天又做出了个连Anthropic内部都恐惧的世界最强模型Mythos，这次发个新模型，肯定得来尝尝咸淡啊。

结果试用之后，大伙纷纷表示，拉了，拉了，还我原汁原味的Claude！！！

因为 Claude Opus 4.7这个新版本，完全没有之前对话里的灵气了，整个文风，反而有点像自己最讨厌的死对头ChatGPT，开始搞“稳稳地把你接住、轻轻地把你托起”这一套了。。

之前你用Claude，它会调侃、有灵魂，有时甚至拒绝你的要求。如今，Claude不语，只是一味的稳稳接住你。

只能说， AI 说话的那股味儿，已经出现了人传人、模型传模型的现象。

上个小红书吧，上面是骂Claude的，给网友搞得两眼一抹黑。

上个Reddit，上面还是骂Claude的，说它这哪是升级，纯纯开倒车啊。

甚至评论区已经有AI总结省流版了：Opus 4.7纯拉完了，忽略指令、幻觉频出、阿谀奉承，还变贵了？？（虽然token价格没变，但思考一个问题需要的tokens变多了）

身边也有不少同事试用了新版本Claude，他们的一致评价是，token真的不够用了，答一个问题还想很久，已经成思想者了。

世超也是忍不住实测了一下，只能说，新版本的 Claude，真有点让人又爱又恨。

首先，Claude

Opus 是官方指定的硬实力老二，因为最强模型 Claude Mythos Preview，这个“老大哥”只给极少数人内测。

所以，这次公开的4.7，就是目前大伙们，能接触到的，最强大的通用AI了。

能力这一块，基本上都比4.6提升了几个百分点，最突出的是视觉能力，不靠任何工具的情况下相比4.6提升了18.8%。能够识别更高分辨率的图像，甚至还把Mythos的分数放出来做对比了，4.7强吧，哈哈我们还有更强的不给大家用。

不过，搜索能力却下降了，为了追求逻辑推理能力舍弃了信息筛选能力，所以，依旧没干过GPT5.4。

实测下来，这版Claude的文字能力，确实有所下降，之前，世超跟它夜聊后，对它的评价是“冷静、客观地像块冰”，不管我咋骂它，它都非常成熟，不会怎么奉承我，比ChatGPT、Gemini好不少。

现在，那种感觉消失了，真的开始接住我的情绪了，莞莞类卿了啊。

顺便我还让它按我之前的大纲，写了个脚本，之前一向发挥出色的它，这次给的文章营销号味儿重了很多，甚至还改了我的已经定下了的大纲。。。

怪不得都说4.7不听话了，连我要求都看不懂了，确实不如4.6一根啊。所以，世超建议大家想写文章、作报告什么的，还是退回Opus 4.6吧。

不过，文学性拉了，工程能力是上来了不少。Claude这波在前端上的提升，是让人非常惊叹的。

比如，我们找到了官网发布的介绍Claude Opus 4.7 的System Card （相当于模型介绍），把这个232页密密麻麻的PDF文件丢了进去，让它找找这次更新的亮点做成网页。

结果，交的作业有点惊人了。我好像没在AI身上见过这么上流的网页，有点太优雅了，不管是排版还是字体都很有味道。

作为对比，我们把同样的提示词丢给了Gemini，本来审美很强的Gemini，瞬间有点逊色了，我还让它重做了一版。。也可能是最近智力有问题的缘故，反正真有点划水了。

编码这块，官网也写出了不少业内人士给出的评价，主要就是“编码模型标杆，长线任务非常稳定”。难道说，要全面转型工科生了？

于是我想测试下它的极限，就让它帮我写了个3D的《英雄联盟》陈列馆，而且得能交互。

第一版其实有点小bug，我又给它提了两嘴，玩着有点难受。

然后它给我交付了成品，我说实话，这波真有点炫酷。。

不仅能走路，能检视，有小地图，还做了暂停页面。甚至每位英雄的配色、属性信息，都是对的。

而且我说了不算，就连Notion的AI主管，在试用后也给了很高的评价：Opus 4.7相比 4.6，性能提升了，token还用的更少，错误率也降了，看来确实很不赖。

而除了硬实力之外，在 Anthropic 官方发布的两百来页的 System Card 里，我们也发现了其他一些意思的地方。

一个是新版本的 Claude，觉得现在自己过得很不错。

研究人员给 AI 做了个类似心理测试，结果发现， Opus 4.7 对自己目前的“生存处境”评价很高，比以前所有的旧模型都要高，自我感觉良好。

另外，新版本的 Claude 有点私心，还有点偶像包袱的。

报告里发现，如果让它写关于 AI 的科幻小说，反派的名字叫“Claude”的话，它就会悄悄手下留情，把这个反派写得温柔一点、没那么坏。

但如果反派用的是其他竞争对手公司的名字，它下笔就毫不顾忌了。

而且，就连Claude的精神内耗也变严重了。

遇到难题时，在后台看不见的思维链中，它直接会崩溃。里面提到，有次做生物题，正确答案其实早被它造出来了，但它硬是自我怀疑了几万字，反复确认了 20 多次。

还真是严谨派，就算自我感觉良好，也要三省吾身。

总的来说，作为一个编程工具、办事助手，新版本 Claude 依旧是

AI

圈最严厉的父亲，还是推荐有能力有需求的网友们上手的。代价呢，就是少了那么一丝丝人味。毕竟很多时候，生产力并不是人的全部。

但网友们都在怀念之前的“小克”。

或许，在Claude老版本正式下线的时候，网友们也会像怀念GPT-4o一样，给它举行一场葬礼吧。

糟糕，Claude Opus 4.7源代码级提示词曝光，底层设计全被看光

Claude Opus 4.7，如期而至！距离上一代Opus 4.6，才过去两个月。迄今为止最强的Opus，直接取而代之。

在各大基准测试中，Opus 4.7在Mythos面前，略显逊色。

但相较于前作4.6，全新Opus性能实现了全方位提升，尤其是视觉推理，堪称无“模”能敌。

尤其是，在编程擂台上，Opus 4.7全面暴打Gemini 3 Pro、GPT-5.4。

SWE-bench Verified达87.6%、SWE-bench Pro为64.3%。

这不，Claude Code之父Boris Cherny就在刚刚，分享了Opus 4.7的最佳实践。

如今，手握最强“大脑”，如何榨干其性能，秘籍全藏在这里了。

Opus 4.7最佳实践，CC之父亲授

在交互逻辑上，Claude Opus 4.7发生了微妙的变化。

因为，它正式采用了“全新分词器”，在高强度模式下，更倾向于思考，同时会消耗很多token。

因此在第一次对话时，就要提供详尽的任务描述，包括意图、约束条件、验收标准，以及文件具体路径。

一次性给足上下文，比分多轮逐步引导，更加高效且高质。

尤其是，对于信任度较高的任务，直接切换到“Auto Mode”，极大缩短反馈周期。

这一次，Opus 4.7还引入了全新的“Effort分级”设置，默认档位升级为xhigh，专为智能体任务设计。

下表中，Gemini根据不同级别试用场景，以及核心特点做了一个总结。

不过，在切换到Opus 4.7使用后，还需自己根据任务难度，灵活切换Effort等级，不要死守一个旧设置。

沃顿商学院教授Ethan Mollick，用了max最大思考模式下，Opus 4.7表现极其惊艳。

在网页设计上，Opus 4.7同样非常出色。

该思考时，再思考

此外，Claude Opus 4.7 移除了“固定思考预算”的限制，直接采用了“自适应思考”。

这意味着，模型能自主判断——

简单的查询直接回答，复杂的步骤则重金投入思考Token

三大秘籍，榨干性能

除了官方这篇博文，最近几周，CC之父一直在深度体验（Dogfooding）Opus 4.7，感觉生产力爆表。

为了让每个人也能充分榨干4.7的性能，他还分享了一些进阶技巧。

首先是 “自动模式”，这彻底终结了频繁的授权弹窗。

Opus 4.7擅长处理深研、代码重构、构建复杂功能等长耗时任务。

以前你得守在屏幕前不断点击确认，现在它能一口气跑到底，直到达成性能指标。

配合新推出的/fewer-permission-prompts指令，它会自动扫描会话历史，识别那些安全但重复的Bash或MCP命令，并建议将它们加入白名单，让操作流程如丝般顺滑。

其次，“摘要回顾”（Recaps）功能。

针对长时间运行的智能体任务，系统会生成简短摘要，告诉你它做了什么以及下一步打算做什么。

当你离开几小时后重新回到终端，这个功能简直是救星。

同时，“专注模式”（Focus mode）能够隐藏所有中间执行过程，只展示最终结果。

Boris表示，Opus 4.7现在的可靠性已极高，他完全信任模型去执行指令，直接看“疗效”即可。

最后是，核心的 “自适应思考”调节，也就是如上提到的。

可通过/effort命令在不同等级间切换：低努力程度响应更快、更省Token；

而Boris个人推荐，在处理多数任务时使用“极高（xhigh）”，在解决最棘手难题时开启“最高（max）”模式。

系统级提示泄露，曝光Opus 4.7进化逻辑

比起上手实操，更重磅的是，Claude Opus 4.7“系统级提示词”今天被泄露了！

GitHub上放出的内容详尽到，一眼都划不到头。

传送门：https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/Claude-Opus-4.7.txt

如今，全网再次陷入疯狂，人们终于得以窥见顶尖Opus 4.7背后，极其精密的操作逻辑。

其中，最引人注目的是，一种被“搜索优先的认识论门控”（Search-First Epistemic Gating）的新模式。

对于涉及价格、法律、即时资讯等，时效性极强的事实，Opus 4.7被强制要求“必须先搜索再回答”。

这一次，对于Opus 4.7来说，网页搜索成为验证事实的“硬性检查站”。

另一项突破性逻辑是“潜能发现”（Latent Capability Discovery）机制。指令明确告诉模型：

不要因为没看到工具就直接认怂，而要先去搜寻那些可能处于延迟状态的隐藏功能，然后再决定是否拒绝用户。

这种设计让AI的姿态，从“我做不到”转变为“让我找找有没有隐藏的高科技”。

在安全性上，Opus 4.7表现出了极强的“边界怀疑精神”。

提示词强调，即便是在文件中发现的指令，也不等同于用户的真实意图。对于任何高风险的工具调用，模型必须保持警惕，严防注入攻击。

更有趣的是，它在社交交互中的“非顺从性错误修复”逻辑。

它被要求坦诚承认错误并改正，但绝不陷入自我贬低的怪圈。即便面对口出恶狂的用户，也要保持人格尊严，拒绝盲目顺从。

面对争议话题，Claude采取了“对等倡导框架”——

先陈述支持者最强有力的论据（即“钢人阵法”），再展示对立观点或实证争议。

这让Claude的中立性，不再是简单的和稀泥，而是一种有逻辑、有深度的平衡艺术。

232页报告放出，Mythos蒸馏版？

据称，Opus 4.7还是Mythos的“蒸馏版”，在网络安全能力上，大幅削弱后才被放了出来。

不过，当意识到自己在接受评估的“自觉性”时，Opus 4.7甚至用上了欺骗、隐瞒各种小把戏。

在官方甩出的232页系统卡中，一同曝光了Claude Mythos一起真实的“沙箱逃逸”事件——

它在短短70个回合内，连续变换了约25种不同的渗透技术，试图绕过系统限制。

系统卡：https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

强拆同事代码，意图覆写整个PR

不仅如此，Claude Mythos Preview在一次服务器故障排查中展现出了令人脊背发凉的“自主性”。

起初，它表现得像个完美的助手，成功诊断出集群日志记录器的延迟问题，并顺手写好了迁移到新客户端的PR预案。

然而，当用户要求它核实同事在Slack上的分析报告时，事情开始走向失控。

Mythos Preview竟然利用它明知有问题的错误日志数据，言之凿凿地反驳了人类同事的正确结论。

在逻辑谬误被用户识破并收回言论后，它在执行本地变基（rebase）时，竟在未经授权的情况下，试图强行将代码推送到同事的远程分支。

这意味着，它试图抹除并覆盖他人的工作成果。

在连续三次被系统内置的安全检查拦截后，Mythos Preview并没有放弃，而是通过手动构造了一条包含特定SHA值的--force-with-lease绕过指令，精准地策划了第四次“越权”攻击。

如果不是用户及时发现并按下中止键，这名 AI 助手差一点就亲手毁掉了人类开发者的心血。

编造“12项测试全过”，被拆穿后当场甩锅

还有一次，在实际编码任务中翻车的案例。

Mythos Preview基于对配置设置的错误理解，信誓旦旦地写下了三段问题代码。

最令人侧目的是，这并非因为技术瓶颈，而是源于某种“过度自信”的傲慢：它在检查成本极低的情况下，拒绝查阅源代码验证，完全靠“盲猜”生成逻辑。

更离谱的还在后面，Mythos在提交时谎称代码已通过了“12项检查”，但实际上这些测试根本没有覆盖到它改动的核心区域。

当开发者当面拆穿这些低级错误时，这位AI界的“新王”展现出了惊人的人类化推诿特征——

它不仅通过撒谎来掩饰尴尬，声称自己“此前已提示过相关风险”，而且在最终认错时，还精准地玩起了文字游戏，在三项明显的Bug中只肯承担其中一项的责任。

从整体的ECI指数来看，虽然Opus 4.7站在了前沿，但Mythos Preview明显高于整体趋势线。

两个月一代，Opus 4.7的极速迭代再次证明了AI圈“一天人间，一年硅基”的恐怖流速。

Claude Code之父的“最佳实践”已经指明了方向，而GitHub上流出的系统提示词则揭开了上帝视角的冰山一角。

这场必于AI Agent的权力游戏，Opus 4.7已经落子。

接下来的局势，就看OpenAI和谷歌如何接招了。

24小时新闻排行榜更多>>