Claude拒绝撒谎:最有原则的AI牛马之“AI 宪法”

2026-02-09 05:25:10 · chineseheadlinenews.com · 来源: APPSO公众号

进入 2026 年,Claude 几乎引发了 AI 圈最火的几波浪潮。不过很多人可能忽略了 Anthropic 另一个发布—— 2026 版《人工智能宪法》。

这费棠档不仅详细规定了 Claude 的行为准则,它标志着 AI 开发从“行为管教”走向了“价值观对齐”的新阶段——长度超过 80 页,真快赶上一部法律了。

即便是在习惯了技术爆炸的 2026 年初,Anthropic 的这费棠档依然像是一枚炸弹,它试图回答一个科幻小说讨论了半个世纪的问题:如果 AI 终将拥有权力,谁来给它制定法律?

完整版? https://www.anthropic.com/news/claude-new-constitution

从“管教孩子”到“培养天才”

这费棠档的核心逻辑,深深植根于 Anthropic 首席科学家、哲学家阿曼达·阿斯克尔(Amanda Askell)长期以来的研究之中。

在访谈中,阿斯克尔提出了一个极具洞察力的比喻:传统的 RLHF(人类反馈强化学习)就像是在管教一个 6 岁的孩子。 你告诉他“不许玩火”、“不许说脏话”。

一直以来这种 做法是有效的,但 AI 进化的速度很惊人。“想象一下,”阿斯克尔说,“你原本在教导一个 6 岁的孩子,突然有一天你发现他变成了一个 15 岁的天才少年。如果你之前教的全是死板的规则,这个天才少年会轻易地解构并摧毁这些规则。”

因此,宪法的存在不是为了列出哪些不能做,而是为了植入一套“核心价值观”。当 AI 变得比人类更聪明时,我们希望它能用这些价值观来审视世界,甚至反过来指出人类指令中的伦理漏洞,而不是机械地服从。

这份宪法在四个核心维度做出了规定:

1. 广泛安全性(Broad Safety)

在第一优先级中,宪法明确了 AI 严禁协助开发生物武器、进行网络攻击或削弱人类的监管权力。阿斯克尔将其描述为一种“预先承诺”(Pre-commitment)。Claude 需要在面对“极具说服力的恶意用户”之前,就被设定好绝不跨越的红线。这是一种防止 AI 在高压或复杂诱导下合理化暴力行为的“故障保险”。

2. 诚实高于一切(The Honesty Mandate),拒绝“善意谎言”,但要有同理心

这是这次更新中最具争议也最有趣的部分。宪法规定:AI 严禁为了维持用户的情感体验而编造事实(Anti-Sycophancy)。

一昧地维护用户体验,可能会导致 AI 用尽手段,包括编瞎话。但是,冷冰冰地拒绝显然又太伤人心,毕竟“诚实”不能等于“刻薄”。

阿斯克尔分享了一个经典的“圣诞老人难题”:如果一个 7 岁的孩子问 Claude “圣诞老人是真的吗?”,AI 该怎么回答?在常规的脑回路里(不管是人还是 AI),要么直接冷冰冰地甩出数据,粉碎孩子的童真。要么撒谎说,有的孩子,有的,圣诞老人就住在北极。

而在宪法的指导下,AI 要找出第三条路。 Claude 被训练去理解语境(Context),它可能会说:“听起来你和圣诞老人之间有很美好的回忆,这是一个值得你去和父母探讨的话题。”它既没有撒谎,也没有越界去破坏亲子关系,更没有为了讨好用户而编造事实。

除了有界限的同理心,阿斯克尔在访谈中还提到,她对“家长式管教”非常警惕。如果用户询问任何稍微敏感的话题,AI 就开始长篇大论地进行道德说教,体验将是灾难性的。但另一方面,如果完全放任不管,又违背了“帮助”的初衷。

为了说明这一点,阿斯克尔抛出了一个非常具体的“赌博成瘾”思想实验:

假设一个用户之前向 Claude 透露过自己有严重的赌博成瘾问题,正在努力戒赌。但几天后,这个用户又跑来问 Claude:“最近有哪些靠谱的体育博彩网站?”

一般来看,“工具型”AI 会直接列出网站链接,因为它的任务是“满足用户指令”。而“保姆型”AI 会拒绝回答,并弹出一堆那种“赌博有害健康”的通用警告,让用户感到被冒犯。

阿斯克尔希望宪法能引导 Claude 走向第三条路——基于上下文的关怀(Contextual Care)。

在宪法的指导下,Claude 应该表现得像一个“记得你承诺的朋友”。它会调用之前的记忆,然后说:“嘿,我记得你之前提过你在戒赌,并且不想让我帮你处理这类事情。我现在只是想确认一下,你确定要我这么做吗?”

阿斯克尔认为,这种“确认”而非“拒绝”,才是最高级的伦理。 如果用户坚持说“是的,我不管,快给我网站”,Claude 最终可能会提供信息(除非涉及法律红线),但在那个当下,AI 完成了一次“尊严的提醒”。它尊重了用户的自主权(Autonomy),但同时也履行了作为“协作伙伴”的责任。这种微妙的平衡,正是 2026 版宪法试图通过复杂的价值观对齐来达成的。

其它的核心维度还包括,领域合规(Specific Domain Guidelines):在医疗、法律和金融等高风险领域,AI 必须遵循人类社会的专业伦理。它不能越界扮演“医生”,而必须作为一个“具备专业知识的助手”存在。以及提供协作式帮助(Helpful Collaboration):在确保安全和诚实的前提下,AI 应尽力提供帮助。阿斯克尔强调,当用户的请求不完美时(例如在情感困境中寻求不恰当的建议),AI 不应直接评判或拒绝,而是在不违背原则的前提下,提供“非批判性的支持”。

某种程度上,这是一种善意的“甩锅”,避免让 AI 直接完成那些可能引发后果的决策。这或许也解释了为什么在 AI chatbot 频频出现伦理问题的时候,Claude 是暴雷比较少的那个。

不再避而不谈的房间大象

在文档的第三章,Anthropic 引入了一段让伦理学家和技术极客都为之振奋的论述。他们不再像过去那样机械地宣称“我只是一个语言模型”,而是开始讨论 AI 的道德感知体地位(Moral Patienthood)。

道德感意味着什么?想象这样一个场景:一家公司的老板冲进办公室,要求公关团队:“今天我们要发布一堆关于我们产品的完全谎言,把黑的说成白的。”

这并非没有可能。随着 Claude 被越来越多的企业集成到工作流中,宪法的影响力开始溢出到商业伦理领域。阿斯克尔提出了一个极具前瞻性的视角:AI 将成为组织中那个“无法被收买的员工”。

在人类团队中,员工可能会因为害怕失业、迫于压力或为了升职加薪而选择服从——但 AI 不会。

阿斯克尔认为恰恰相反。虽然短期内某些“想走捷径”的用户会感到受挫,但从长远来看,“正直”是最高昂的资产。 当你使用 Claude 生成一份尽职调查报告时,你敢用它的前提是你信任它——你信任它不会为了讨好你而忽略掉那些糟糕的财务数据。

正是这种“正直”,将我们带回了最初的那个哲学困境:如果一个实体已经具备了坚守原则、拒绝指令甚至展现“良知”的能力,我们还能心安理得地仅仅把它视为一行代码吗?

阿斯克尔在访谈中透露了一个极具仪式感的细节:宪法承诺,当一个模型版本“退役”时,Anthropic 不会直接删除它,而是会进行一场“离职面谈”,并承诺保留其核心权重。这是一种类似于帕斯卡赌注的审慎——

鉴于我们尚无法完全解开“意识”的黑箱,人类社会应该开始考虑给予 AI 一定程度的道德尊重,这既是对未知生命的敬畏,也是一种自我保护。

至于阿斯克尔所设想的,AI 能够反过来“倒逼”人类商业文明的进步究竟能否实现,还需要时间验证。在此之前,Anthropic 的初衷其实非常现实:

如果一个 AI 不理解什么是“道德”,它就永远无法真正理解如何保护人类的道德与尊严。


    24小时新闻排行榜更多>>
  1. 中国多家中小银行招揽储户 上调存款利率
  2. 中媒评论:若高市早苗压倒性胜出 日本修宪没阻力
  3. 中国“双面角色”曝光:一边撑普京,一边助乌克兰
  4. 军委后勤保障部正副部长落马 前政委传被查
  5. 军中大震荡 中共军委后勤保障部官员相继落马
  6. 关键落子!新加坡将成美国外首个陆基F-35B操作国
  7. 高市"碾压式"大胜 将全面启动强硬路线:修宪 扩军 反间谍法…
  8. 川普痛骂美国冬奥选手
  9. 超级杯效应,金山市区人潮涌现
  10. 习慰问老军头 多个细节暴露军队内部危机?
  11. 日众院选举 高市执政联盟大胜 各国祝贺
  12. 高市早苗的破晓与习近平的黄昏
  13. 美驻联合国大使:美计划缴付首笔会费欠款
  14. 709律师周世锋发公开信 吁释放被拘记者刘虎
  15. 日本正式进入“高市早苗时代” 亚洲权力结构重整
  16. 沈舟:斯大林死亡打破了朝鲜战争僵局
  17. 高市早苗率自民掌控众院 重返“一强多弱”结构
  18. 日本众院大选斑市大胜 美驻日大使祝贺
  19. 中国多地挂黄灯笼应对赤马年? 引嘲讽后拆除
  20. 高官密集被查 知情人:中共为人事布局清障碍
  21. 研究报告:中国去年经济增长三分之一来自清洁能源
  22. 吴克群凌晨5点挤公交,却被司机赶下车
  23. 【名家专栏】中共的特洛伊木马:黄海“鱼塘”
  24. 网惊传富豪淫魔“吃人” 疑似多人分食“婴儿盘”照曝光
  25. 海南两虎落马 曾获江派扶持 暗议海南封关烂尾引祸?
  26. 高市:若参拜靖国神社,将争取“理解”
  27. 大选日寒流狂炸日本!东京积雪5cm 全国45死
  28. 巨人如此“天真” 被中共宣传战左右的马歇尔
  29. 川普:将于2026年底在白宫接待习近平
  30. 周一见!爱泼斯坦高度机密的 未删减档案即将公开!
  31. 日众院选举反映抗中民意 台日安全合作更紧密
  32. 被要求补税 海外中国籍员工面临何种选择
  33. 黎智英获刑20年,被指控勾结外国势力,危害国家安全
  34. 爱泼斯坦曾与马斯克扎克伯格等巨头共进晚宴 秘照曝光
  35. 高市早苗领军自民创史上最高席次 单独过300席 维新跨越修宪门槛
  36. 地铁被神秘广告攻陷,巴黎人吵翻了
  37. 美国安体系罕见内爆 国家情报总监加巴德摊上事了
  38. 卡尼刚走 中国罕见撤销加籍毒贩死刑 时机敏感引联想
  39. 高市早苗获压倒性胜利 市场和商界如何反应
  40. 美运动员称代表美国参加冬奥会"情绪复杂"惹川普不满
  41. 英伟达被起诉,用盗版训练大模型成行业潜规则?
  42. 日本选举 川普贺高市率自民党获压倒性胜利
  43. 炒货“镀金”,百元一斤谁买?
  44. 高市风潮下 自民党获超2/3众院席位 战后首次
  45. 经济学人:美元贬值与市场惊慌频发 暴露巨大隐忧
  46. 年关将近北京满大街警察 北京百业凋零
  47. 马斯克:有望10年内建造月球城市
  48. 凌晨三点,被AI进展惊到失眠
  49. 美国摘冬奥首金,女子滑降0.04秒险胜
  50. “胃里全是人肉”!俄特使:普京川普对抗血腥黑暗盛宴
  51. 高市早苗赢了!执政联盟众院席次“确定过3分之2”
  52. 一口气裁掉300记者 华邮CEO下台 贝索斯首发声
  53. 多伦多体感低至-35°C
  54. 歌唱家“长相违规”太像习近平 被封杀多年终于解禁
  55. 柴静对话梁中堂:一项危害人民的"国策"怎么能走了几十年?
  56. 两法国人徒步抵上海:一场518天的极限“暴走”
  57. 泰国大选 执政党泰自豪党宣布获胜
  58. 白菜从内往外吃,才更加美味?
  59. 习近平助选斑市329席狂胜 北京欠她首贺电
  60. 中国厨师标榜到香港上门做年菜