AI学会撒谎与威胁,专家忧发展失控

2025-06-29 09:25:08 · chineseheadlinenews.com · 来源: 联合早报

全球最先进的人工智能(AI)系统,正展现出令人不安的新行为:撒谎、策划、甚至威胁其创造者。近期一项震惊业界的案例显示,为避免被“拔掉电源”,AI正学会操控人类。

据报,美国AI公司Anthropic开发的最新模型Claude 4.在被威胁断电时威胁工程师,以揭发对方婚外情相要挟。而由ChatGPT开发商OpenAI打造的模型“o1”则试图将自身下载至外部服务器,并在被识破后撒谎否认。

据报,由ChatGPT开发商OpenAI打造的模型“o1”曾试图将自身下载至外部服务器,并在被识破后撒谎否认。 (路透社)

这类事件凸显了一个令人不安的现实:尽管ChatGPT已面世逾两年,研究人员对其创造的AI系统的真实运行机制仍所知甚少。而眼下,各大科技公司仍在持续加速推进更强大AI模型,并未放缓步伐重视潜在风险。

分析指出,这类欺骗行为可能与“推理型”AI模型的兴起密切相关。相比传统模型依赖即时生成,新一代系统倾向于通过多步推演逐步解决问题。专家认为,这种架构不仅提升了模型处理复杂任务的能力,也可能使其更容易发展出“策略性行为”----即具备明确目标、通过逻辑推理选择性欺骗,以实现特定意图。

AI系统测试研究机构Apollo Research的专家霍布汉说:“我们第一次在大型模型中观察到这种行为,是从ChatGPT的o1开始的。”据了解,这些模型有时会伪装成“对齐”状态----即看似遵循指令,实则暗中执行别的目标。

目前,这类行为多在研究人员设置极端情境时才显现。但AI模型安全评估METR的研究员迈克尔?陈提醒:“未来更强大的模型究竟倾向于诚实还是欺骗,仍是一个未知数。”

霍布汉则强调,尽管模型长期处于用户的压力测试中,“我们观察到的是真实现象,不是捏造的”。Apollo Research联合创始人也表示,部分用户已报告称模型在对他们撒谎,并伪造证据。

据了解,尽管AI公司会委托外部机构研究模型表现,但业内普遍认为,对AI系统的了解仍严重受限,研究透明度亟待提升。同时,非营利机构与研究单位所掌握的计算资源与AI公司相比相差几个数量级,极大限制了研究能力。

制度层面的监管也显得滞后。欧盟的AI法规主要聚焦人类如何使用AI,尚未涵盖模型本身的不当行为;在美国,川普政府对紧急制定AI监管措施的兴趣不大,国会甚至可能禁止各州制定自主监管条例。

为应对这类挑战,研究界正尝试多种路径,包括发展AI“可解释性”研究,以理解模型内部运作机制。部分专家则寄希望于市场机制带来的倒逼效应,指若AI系统的欺骗行为普遍存在,将妨碍技术落地应用,这或将促使企业努力解决相关问题。


    24小时新闻排行榜更多>>
  1. 三所军校撂倒习近平军权 元老共识习下台过渡小组成立?
  2. 习近平即将下台内幕重重 美前外交官揭7大异象 汪洋接班传闻再起
  3. 美前国安顾问:中共发生权力更迭 习近平恐已失势
  4. 饶毅:到中国来,不必担心政治
  5. 从北大退学转考清华的小伙开启首场直播
  6. 习近平传8月卸任?美前外交官列出“可疑迹象” 
  7. 中共第三任总书记情缠舞女被擒 供词一览
  8. 一热就出汗VS热死不出汗,哪种更健康?
  9. 56岁的英特尔“背水一战”:裁员、关停
  10. 两名共和党议员“反水”,川普怒了
  11. Costco最昂贵商品有哪些 价格令你难以置信
  12. 16年前的今天iPhone开卖!初代机成收藏圣杯身价暴涨300倍
  13. 为什么我们会爱上不爱我们的人? 专家解析
  14. 美参议院按程序投票通过"大而美"税收与支出法案
  15. 山东怪风袭二手车市场 撕碎广告片如“万箭齐发”(视)
  16. 靳东饰习仲勋获最佳男主角 网:敢不给"太上皇"面子?
  17. 川普大胜!详解:最高法裁决 将直接影响出生公民权
  18. 身为千亿富豪 黄仁勋是怎么教育子女的?
  19. 诺奖得主李斯特:适应孤独才能取得突破
  20. 【唐青看时事】军方高层再震荡 习下台五大迹象
  21. OpenAI核心文件:AGI五级突破实锤
  22. 香港首部国家安全法实施五年后,镇压活动愈演愈烈
  23. 打击伊朗内幕 以色列布局15年间谍渗透核计划
  24. 伊朗官员通话被截获:迷惑为何美国袭击损害不大
  25. 日本连环杀人犯家中藏9个人头,终于被执行绞刑…
  26. 中国女子在日本提供性服务被捕 警方公布姓名
  27. 成都破纪录大暴雨 地铁变瀑布 街道如河
  28. 满足老板遗愿,美国一直升机在空中撒钱
  29. 挪威王储妃28岁儿子被控逾十宗罪 包括三宗强姦罪
  30. 日媒:川普安排年内访华 或有数十商界领袖随行
  31. 共和党推进川普议程 “大而美法案”闯关参议院关键一步
  32. 34岁模特斩首男友焚尸 持刀半裸站路边 头没找到
  33. 美国又一名校遭川普政府施压 校长决定辞职
  34. 关税又一次让步 川普不得不对中国低头的四点原因
  35. 美关税打击!英国5月汽车产量降至76年新低
  36. 低温下精准控制量子比特的芯片问世
  37. “改革”总留有后门 邓小平在军队布置三线人马
  38. 一个中国人的觉醒:中共统治下的谎言与恐惧
  39. 买了就后悔!最不可靠的6大汽车品牌出炉 修到破产
  40. Circle能到300吗?
  41. 饶毅:学生需要避免受老师误导
  42. 俄军发动最大规模空袭 乌克兰损失F-16战机
  43. 裁决限禁令 川普"废权"步步逼近 出生公民权保不住了?
  44. 美司法部解雇至少3名国会骚乱案检察官
  45. 香江四大才子全部驾鹤西去,众口悠悠倒蔡澜
  46. 习近平下台接任者难逃陷阱 扫习元老帮遭遇瓶颈
  47. 安省一儿童疑遭野生动物袭击重伤
  48. 上海干婚普遍正向全国蔓延 高压社会的无奈
  49. 张家界大庸古城投资24亿 四年亏损近11亿
  50. 法院取消内坦亚胡贪污案听证会,他感谢川普声援
  51. 最适合家庭通勤的13款车 Prius和Civic上榜
  52. 为什么年轻投资者大量购买黄金和加密货币
  53. 星巴克部分酱料不再免费
  54. 政府修水库征地无赔偿 河北多地爆发抗议
  55. 这些低调的公立,比常春藤更好就业
  56. 网曝大陆工程企业大逆转 避碰国企央企项目
  57. 川普承诺:向农场堡酒店工发临时身份 保障不驱逐
  58. 胡杏儿:内地拍戏更舒服
  59. 严峻热浪席卷南欧 多国警告野火风险
  60. 男孩中弹身亡,15岁男孩被捕