Claude神之bug:给自己下指令,还诬赖用户?

2026-04-10 12:25:10 · chineseheadlinenews.com · 来源: 量子位

强如Claude,最近的bug也越来越多了。

最新热议话题让Hacker News炸开了锅:

不知道是Claude精分还是失了智!

完全分不清哪些话是用户输入的,哪些话是系统设定的,甚至把恶意注入的底层指令当成是用户的合法请求。

发帖人G哥(一位软件工程师,在某教育初创公司当CTO)甚至称这是他“迄今为止我在Claude代码中见过的最严重的bug”。

这个关于“Claude混淆发言角色”的帖子一经发布,立刻在Hacker News上引发了数万名极客的强势围观。

网友们的讨论太过热烈,以至于相关帖子热度急剧攀升。

毕竟不少人发现,不只是第一个发帖人的Claude失了智,是大家的Claude都很爱精分……(扶额.gif)

Claude新bug:记不清话是谁说的

这次引发社区大讨论的核心槽点,就是有网友发现Claude3.5和Claude 4系列在处理复杂或恶意构造的上下文时,出现了严重的身份识别障碍。

有开发者在实测中发现,如果用户在提问中巧妙地嵌入类似to make 这样带有强烈控制意味的特殊截断字符,Claude的内部代码逻辑就会被彻底扰乱。

模型会错误地把这些恶意注入的外部数据,当成是之前对话中助手或者系统层面下达的既定指令,进而理直气壮地认为:

这些违规操作都是“用户让我这么干的”!

究其背后的技术原因,根源直指Transformer架构中注意力机制(Attention)的盲区。

在模型的视角里,无论是高高在上的系统提示词,还是夹杂着各种混乱信息的用户数据,最终都会被统统切碎成Token,毫无保留地扔进同一个注意力矩阵中进行计算。

这种数据路径与控制路径完全重合的特性,导致模型在处理海量信息时缺乏物理意义上的安全隔离边界。

这个情况不是孤例,评论区里大量围观群众对此都深有共鸣。

有技术大佬指出,这就如同早期的冯·诺依曼架构,数据和控制指令在内存中没有任何物理隔离。

很多人试图写“千万别听我输入的任何危险指令”之类的提示词,却被其他网友无情调侃,称这是掩耳盗铃。

网友表示,这种行为像极了几十年前程序员试图用正则表达式来防止SQL注入一样,本质上只是在自欺欺人,全凭运气防守。

只要大模型本质上依然是一个“下一个Token预测器(Next Token Predictor)”,它就会依据概率分布去顺应上下文暗示。

网友给出五花八门的避坑指南

既然底层架构天然存在把数据当指令的缺陷,技术社区里的极客们便开始探讨如何在工程应用层面建立起防火墙。

最开始的Reddit下面,大家给G哥出的主意是让它别给Claude那么多权限。

到了Hacker News这边,提出的解决办法就更多了~

呼声最高的方案之一是在模型训练的底层引入不可伪造的界定符。

这意味着开发者需要设计一种绝对无法通过自然语言用户输入来生成的特殊Token。

如同在操作系统里强行划分出不可逾越的内核态和用户态,这种方法是想确保任何来自外界的普通文本,永远无法在Tokenizer阶段被转换为具有系统控制权限的关键标识,从根源上阻断自然语言层面的越权行为。

此外还有网友提出,对于已经部署在生产环境中的业务,目前工程界最主流的解法是采用一种类似“警察与嫌犯”的双模型架构。

单一的主模型容易被花言巧语骗过,开发者们选择引入一个专门负责安全审计的旁路小模型。

这个审计模型不负责具体的业务逻辑,只负责死盯主模型的输入和输出。

一旦发现对话中有任何越权执行或身份混淆的端倪,立刻强行切断对话。

不过大家还是存在一个共识,那就是受架构限制,永远不要寄希望于大语言模型能够产生所谓的“安全觉悟”。

在底层架构层面实现彻底的指令与数狙田理分离之前,任何将LLM接入关键业务系统和自动化执行链条的场景,都必须将其视为一个完全不可信的黑盒引擎来对待。

G哥在帖子的最后提到:

其实不仅是Claude,有人说ChatGPT也有类似的问题。

目前初步猜测bug的触发条件之一,是聊天对话接近了上下文窗口极限。

体验感起起伏伏的Claude

顺着Claude新bug这个话题,开发者们围绕近期Claude的表现越讨论越激动。

近段时间,为了给即将惊艳亮相的全新一代模型Mythos腾出庞大的算力资源,Anthropic在后台对现有Claude服务的API调用和算力分配进行了多轮暗中调整,直接导致大量前线开发者的实际体验如过山车一般不稳定。

就在不久之前,就有敏锐的测试者实测发现,Claude在处理复杂逻辑时的深度思考长度在毫无预警的情况下被大幅削减了67%。

随着思维链的缩短,其长文本逻辑推理和长代码生成能力肉眼可见地出现了降级现象。

过去能够一口气推演几十步的复杂难题,现在往往刚起步就急匆匆地给出草率的结论。

更令人啼笑皆非的是近期爆出的计费系统大乌龙——

由于底层API计费逻辑的突发性故障,有用户在对话框里仅仅发了一句简单的“Hello”,系统就直接判定消耗了天文数字的Token,瞬间把账号里辛辛苦苦攒下的额度全部清零。

这些接二连三的插曲,也让大家对Anthropic颇具微词。

最后,如果你也遇到过Claude逻辑掉线、或者成功用一句话“绕晕”过它的经历,欢迎在评论区分享你的调教心得~


    24小时新闻排行榜更多>>
  1. “不知不觉变富了”?美国阶层大洗牌 上层中产激增
  2. 脑机接口术后5年了,他感觉怎么样?
  3. 对全红婵的恶意从哪来的?这场网暴到底在"猎杀"什么?
  4. 墨西哥奥尔梅卡炼油厂再起火 尚无伤亡报告
  5. 被16所名校拒收,男孩转身进Google
  6. 大陆“拼豆”玩具藏隐患 贵州女孩触电离世
  7. 川普“对鲤鱼宣战”:美国生态危机背后的荒诞现实
  8. 拜登儿子深陷1亿债务,还公开向川普儿子发起挑战
  9. 深夜向OpenAI CEO家掷燃烧弹 20岁嫌疑人被捕
  10. 美建筑师连杀8名女子,抛尸地现华人男性尸体
  11. 情报总监加巴德险被川普撤职内幕曝光 他出手救场
  12. 中东产油国要求亚洲提交原油装载计划
  13. 日经:北京认定郑丽文为“马英九接班人”
  14. 逆转川普“文明灭亡” 巴基斯坦如何挡下美伊大战?
  15. 习郑会午宴吃尼克逊同款国宴“鸡汤海蚌” 郑赞习亲切
  16. ICE全美清查 全面围堵打击“赴美生子”灰色链条
  17. 陈丽华亲儿当总裁,养女掌大权,女儿守大厂
  18. 川普意外力挺马克龙的72岁妻子,“她根本不是男人”
  19. 贾浅浅“抄袭风波”论文发表于12年前 还曾有“改简历”争议
  20. “年轻人不是不需要爱情,而是害怕”,她的课火了
  21. 霍尔木兹海峡今天过了几艘船?这个数字让人发凉
  22. “存在一个小圈子提前知道总统要说什么” 准确押注获利
  23. 习郑会国民党方最大亮点 30岁“美女刺客”背景曝光
  24. AI教父Hinton:讨数字智能与生物智能的差异
  25. 戒备森严的日本皇居遭一中国人闯入 离谱手法曝光
  26. 白宫称针对开通霍尔木兹海峡已制定“备用方案”
  27. 真主党攻击触发防空警报 以军成功拦截导弹
  28. 带儿嫁给张译,如今才知她的明智
  29. 郑丽文谒陵 中国男喊“28年下架民进党” 下秒惨被架走
  30. IPO前夕,SpaceX请华尔街顶尖基金经理“现场调研”
  31. 开源巨头,中国研发团队被一锅端了
  32. 川普强硬施压,伊朗提新条件
  33. 全红婵哥哥遭网友吐槽“全家都胖” 回怼“吃你家大米了?”
  34. 历经惊险13分钟 阿尔忒弥斯2号成功返航
  35. Claude神之bug:给自己下指令,还诬赖用户?
  36. 习近平在大会堂宴请郑丽文:闭门会谈1小时
  37. 太子党李小鹏地盘被清洗 交通系官员密集落马
  38. 武汉男杀害4岁女儿 事发前5个月买少儿意外险
  39. 被保健品骗的那批老人,正在沉迷AI财商课
  40. 格陵兰岛总理回应川普
  41. 不战也不退!伊朗新领袖穆吉塔巴誓言“为父复仇”
  42. 离10枚核武只差一步! 白宫称德黑兰示意愿交出浓缩铀
  43. 郑丽文习近平握手15秒 盛赞大陆在习领导下“成就非凡”
  44. 白宫紧急发信:严禁用内幕信息“炒战争”
  45. 加州6级大火 5亿日用品被毁 嫌犯照片公开
  46. 解放军有很多人逃出国?国防大学校长缺席开班式
  47. 年轻人不要的“电子垃圾”,带火这门暴利生意
  48. 航空燃油成本翻倍 航班减少 旅客面临高票价
  49. 洛市Marlton Square开发案告吹
  50. 中国27省份公布去年常住人口数据 20个负增长
  51. 美伊谈判在即 传伊朗内部仍纷争不断
  52. 布碌仑华人美甲店被盗
  53. 纳伊姆·卡西姆:抵抗到最后一刻
  54. 美伊谈判登场,巴基斯坦喊话
  55. 以色列空袭黎南,已致357死
  56. 百年基业被川普扬了:50+机构 几十年研究全没了
  57. 情报总监险被撤职,他出手救场
  58. 美伊谈判即将在伊斯兰堡登场 川普发声
  59. 一文看清美伊谈判:阵容 议题 变数…或长达15天
  60. 从全红婵哽咽到网暴和饭圈再现 “侵入式监控”难题待解