Anthropic深夜发布Claude Fable 5 屠榜所有测试

2026-06-09 20:26:15 · chineseheadlinenews.com · 来源: AI寒武纪

Anthropic深夜发布Claude Fable 5 屠榜所有测试

Anthtropic刚刚推出了一款 Mythos 级模型Claude Fable 5,面向所有普通用户开放,今天全面上线



与此同时,针对少数特定合作方,他们还推出了 Claude Mythos 5,它与 Fable 5 采用相同的底层模型,是 Claude Mythos Preview 的升级版,访问权限很快会扩大

Fable(寓言)源自拉丁语 fabula,意为"被讲述之物",与希腊语 mythos 同源。安全护栏是区分这两个模型的核心差异,也是它们拥有不同名称的原因所在,AndrejKarpathy说Fable5是一次重大飞跃,杰文斯悖论开始显现,软件需求在大幅增长。你可以要求任何东西:解释器、可视化工具、定制应用、把测试套件扩充10倍、自动优化代码、运行大型研究项目并用自定义HTML呈现结果

Fable 5 和 Mythos 5 的定价分别为每百万个输入tokens 10 美元和每百万个输出tokens 50 美元,不到 Claude Mythos Preview 价格的一半

到底有多强?

Fable 5 在几乎所有测试过的 AI 能力基准上都达到了最先进水平,涵盖软件工程、知识工作、视觉、科学研究等众多领域。

并且任务越长、越复杂,Fable 5 相对其他模型的领先幅度就越大。



编程:把两个月的工作压缩进一天

测试期间,Stripe 反馈说,Fable 5 把原本需要数月的工程工作压缩到了几天之内。

具体来说:在一个有 5000 万行 Ruby 代码的大型代码库里,Fable 5 用一天时间完成了一次全库迁移,而这项工作如果靠人工完成,整个团队需要两个月以上。

在 Cognition 的 FrontierCode 评测上,Fable 5 也拿到了前沿模型中的最高分。这个评测不只看能不能完成编程任务,还要求符合高质量生产代码库的标准,而且 Fable 5 在中等算力消耗下就做到了,token 效率高于以往的 Claude 模型。





知识工作:金融分析接近满分

在 Hebbia 的金融基准测试上(考察高级别推理能力),Fable 5 得分高于所有模型,在基于文档的推理、图表与表格解读、问题解决等方面均有大幅提升。

IMC(国际市场商品公司)表示,Fable 5 在他们的交易分析评测中几乎全部拿到了优秀,包括事实查询、概念推理、根因分析和期望值分析。

视觉:靠截图还原代码,通关宝可梦

视觉能力方面,Fable 5 同样跻身当前最先进水平。

它能从复杂的科学图表中精确提取数据,甚至可以仅凭截图重建一个网页应用的源代码。更值得一提的是,它需要的辅助工具更少了。

此前的 Claude 模型即便配备了额外辅助工具,玩《宝可梦:火红》依然力不从心。而 Fable 5 只依靠原始游戏截图(没有地图、没有导航辅助、没有额外游戏状态信息),就从头到尾通关了这款游戏。

记忆与长文本:持久记忆让表现提升三倍

在长时间运行的任务中,Fable 5 能在数百万 token 的范围内保持专注,并借助自己的笔记不断优化输出。

在卡牌构筑游戏《杀戮尖塔》的测试中,为模型提供持久文件记忆后,Fable 5 的表现提升幅度是 Opus 4.8 的三倍;Fable 到达游戏最终章的频率,也是 Opus 4.8 的三倍。

Claude Fable 5可以从物理第一性原理出发建立太阳系模拟,并以此预测日食

药物设计:速度提升十倍

Mythos 5 专属能力中,最令人震惊的是药物设计。

Anthropic 内部的蛋白质设计专家使用 Mythos 5 后,药物设计流程的部分环节加速了约十倍。在一项测试中,Mythos 5 在配备蛋白质设计和生物信息学工具但无人类协助的情况下,表现与经验丰富的人类专家相当,甚至更好。

它完成了科学家通常需要独立承担的全部工作:选择结合位点、选择和运行蛋白质设计工具、在失败时自主纠错。

研究中涉及的 14 个蛋白质靶点里,有 9 个产生了强有力的候选药物,目前正在进一步研究中。



分子生物学假说:80% 的情况下,科学家更偏向 Mythos

Mythos 5 是 Anthropic 第一个能持续产出有新意、令人信服的科学假说的模型。

在与 Opus 级别模型的盲测比较中,Anthropic 的科学家有约 80% 的时间更倾向 Mythos 5 提出的分子生物学假说,部分假说已推进到实验验证阶段。与此同时,Mythos 5 提出的一个关于大肠杆菌蛋白质新机制的假说,已被另一个独立开展同一课题研究的实验室的论文所印证。

基因组学研究:自主工作一周,超越 Science 发文模型

Mythos 5 在超过一周的基本自主工作中开展了原创基因组学研究。

它整合了跨越 138 个动物物种、数百万个细胞的单细胞数据,设计并训练了一个定制机器学习模型,用于识别亲缘关系较远的生物体中承担相同功能的细胞。

仅有高层次人工指导的情况下,Mythos 5 训练出的模型超越了近期发表于《Science》期刊的一个模型,而参数量只有后者的百分之一。相关结果预计将在未来几个月内发表。

对齐表现:与 Opus 4.8 持平

在自动化对齐评估中,Mythos 5 表现出的失准行为(包括欺骗、配合用户滥用模型等)处于较低水平,与 Opus 4.8 相当。由于 Fable 5 与 Mythos 5 是同一个底层模型,Fable 5 的对齐水平也大致相同。



Fable 5 的三重安全护栏

这是A厂一贯的调性,A厂认为发布如此强大的模型伴随着风险,没有安全措施的话,Fable 5 在网络安全等领域的能力可能被滥用,造成严重破坏。

为此,Anthropic 为 Fable 5 设置了三道安全分类器护栏。当某个请求触发护栏时,系统会自动转由 Claude Opus 4.8 来响应(而不是直接拒绝),用户也会被告知发生了转发。目前数据显示,超过 95% 的 Fable 5 会话没有触发任何转发。

第一道护栏:网络安全

Mythos 级别的模型在发现和利用软件漏洞方面表现卓越,并具备完整的"代理式黑客攻击"能力,包括侦察、发现、横向移动等多个攻击环节。Fable 5 的网络安全分类器覆盖了漏洞利用和更广泛的进攻性网络任务。

Anthropic 对分类器进行了大量红队测试,并委托外部机构进行漏洞悬赏测试。超过 1000 小时的测试未发现任何通用越狱方法。外部红队机构在长周期代理任务上也未找到通用越狱,尽管英国 AI 安全研究所在有限的初始测试窗口内取得了一定进展。

一位外部合作伙伴的测试结论是:Fable 5 的有害网络查询防护是所有被测模型中最强的,对 30 种公开越狱技术均不受影响,有害单轮请求的响应率为零。



第二道护栏:生物与化学

Anthropic 过去一直用分类器屏蔽部分生物武器相关问题,但现在他们认为这样做还不够。

原因有两点:一是有理由担忧掌握大量资源的恶意行为者利用模型获取斑风险生物研究的帮助;二是模型现在完成真实世界科学任务的能力已经大幅提升。



他们用一个具体案例说明了这种风险:在测试 Mythos 5 辅助设计腺相关病毒(AAV)这一挑战性步骤时(AAV 是基因疗法的重要载体,同样的技术在被滥用时也可能被用于设计危险病毒),Mythos 级模型仅凭生物推理,就超越了专门用于蛋白质任务的专业模型,而 Anthropic 并未专门训练它完成这项任务。



基于这一判断,Fable 5 目前对大多数生物和化学相关请求都会转发给 Opus 4.8。几周内,部分生物医学研究人员和企业将能够通过可信访问计划,使用移除了生物化学护栏的 Mythos 5。

第三道护栏:模型蒸馏

Anthropic 此前发现了大规模提取 Claude 能力用于训练竞争对手模型的行为,被分类器判断为蒸馏尝试的请求,将转发至 Opus 4.8 处理。

还有一项新的数据保留政策

对于 Fable 5、Mythos 5 及未来能力相当或更高的模型,Anthropic 将对所有 Mythos 级别模型的流量强制执行 30 天数据保留。这包括第一方和第三方平台。

这些数据不会用于训练新的 Claude 模型,也不会用于任何非安全目的。Anthropic 实施了新的隐私保护措施,包括记录所有人类访问该数据的行为,并在几乎所有情况下确保数据在 30 天后删除。

保留数据的目的是帮助防范复杂和新型攻击(包括新型越狱和跨多个请求的攻击),以及帮助识别和减少误判。

写在最后

从今天起,所有目前能访问 Claude Mythos Preview 的用户(例如 Project Glasswing 中的网络安全合作伙伴),都可以升级到 Claude Mythos 5,网络安全护栏在该版本中已解除。用户会发现 Mythos 5 在大多数任务上与 Mythos Preview 相当或略有提升,但价格大幅降低。

与此同时,他们将为生物领域开放一个可信访问计划,帮助加速生物医学研究。该计划提供解除了生物化学护栏(网络安全护栏仍保留)的 Fable 5 访问权限,面向来自基础研究和转化研究机构的少量研究人员,并计划逐步扩大。

开发者可通过 Claude API 使用 claude-fable-5 调用该模型。

今天至 6 月 22 日,Pro、Max、Team 和按座位付费 Enterprise 套餐用户免费使用 Fable 5。

6 月 23 日起,上述套餐中不再包含 Fable 5,使用需消耗额度。如容量允许,Anthropic 会延长免费窗口。

此后,待容量充足,Fable 5 将重新成为订阅套餐的标准部分。


    24小时新闻排行榜更多>>
  1. 考编排名第一未获录用 黑龙江宝妈维权 岗位被取消
  2. 李小龙姐姐李秋源离世,享年88岁
  3. 杨毅侃球:尼克斯夺冠,一曲凡人歌
  4. 美伊达成协议,油价开盘重挫
  5. 西瓜的“死对头”,二者万不可同食
  6. 分析:中共打击跨境炒股实为抢钱 更促资金外逃
  7. 开赛仅3天,世界杯暴露安全隐患
  8. 纽约狂欢失控"烧了世界杯接驳车",时报广场1人中弹
  9. 两直升机相撞致6死,包括美歌手
  10. 中国经济大萧条!3亿年轻人失业!惊现最惨一幕!
  11. 尼克斯队夺NBA总冠军
  12. 18岁少年令巴西中场尽失锋芒
  13. 离开手机和网络,我们还能走多远?
  14. 最危险2天 全球预言家集体示警
  15. 燃料和生活成本攀升,川普农村地区支持率创新低
  16. 日本药企加码对华押注:中国研发能力已逼近美国
  17. 中国教师,正在批量减少
  18. 在东亚,黄仁勋为何狂打“亲民牌”?
  19. 摆脱对中共依赖 日本今夏探勘格陵兰稀土
  20. 美顶尖大学新生不会解“7x–2=5”?
  21. 广东外语外贸大学2026年本科招生5315人
  22. “黑灯工厂”,照不亮中国年轻人的就业之路?
  23. 大陆居民存款两个月缩水2万亿 钱去哪了?
  24. 1美元中了2万,感恩节变成批斗会
  25. 胡歌抑郁捡垃圾,张凌赫被大佬“警告”
  26. 台湾“国安局”设网络平台 供大陆民众提供情报线索
  27. 甘肃张掖一镇政府被曝向农户强收农田建设费
  28. 欧盟政坛“顶流”,又闯一关
  29. 民主党议员痛批:这是川普的投降书
  30. 密苏里州发生飞机坠毁事故 机上12人全数罹难
  31. 男生三大烫发区别,怎么选?
  32. 权斗惨烈 习近平已拔掉4大眼中钉?
  33. 走出优绩主义,为什么这么难?
  34. 本届世界杯,欧洲球队拉完了
  35. 饭局牵出性侵案 蔡奇第三名旧部传出事 官网简历被撤
  36. “艾思云科研”扎根广州大学城
  37. 以军称精确打击黎真主党指挥中心
  38. 金刚为何怒目?菩萨为何垂眉?
  39. 川普80岁大寿!UFC格斗秀搬进白宫“狂烧19亿” 
  40. 只为避开川普生日!伊朗"硬撑到跨夜"公布和平协议
  41. 从习近平四个眼中钉看习近平这个人
  42. 如何看待spaceX的商业前景?
  43. 南非洞穴惊现179万年前火痕 人类掌控火种时间或大幅提前
  44. NBA球星哈登在休斯敦因涉嫌非法持枪被警察逮捕
  45. “超市英雄”原来是素不相识的三位护士
  46. 川普宣布美伊达成协议 开放霍尔木兹海峡
  47. 视频生成作为多模态推理新范式
  48. 大众等多款车被诉轮胎开裂 涉韩泰与锦湖品牌
  49. 《驱魔人》(二)“它们恨的是神”恶魔最不愿承认的秘密
  50. 有福遇真仙 贪求毁圣缘
  51. 每到关键时刻搅局,以色列为何总阻挠美伊签协议?
  52. 美国会议员提案 禁止中国军方关联企业员工入境
  53. 国家意志阳谋:美元是我们的货币 却是你们的麻烦
  54. 手术后忘记母语 反而说着流利外语
  55. SpaceX要部署1GW太空算力,产业链“闻风而动”
  56. 美下架22项冒充“美国制造”餐具 打击中国供应链渗透
  57. 四川省科技厅发布第二批软科学项目申报指南
  58. 今年世界杯赛场上 为何粉红色球鞋集体亮相?
  59. 英网红炫燿用20元麻辣烫猎艳西安女教师 引爆争议
  60. Anthropic新模型突遭出口管制 亚马逊打了小报告