AI正在泄露真实的个人电话号码-墙外头条

最近一位 Reddit 用户发帖称自己“走投无路了”：一个月来，他的手机不断接到陌生人的电话，找律师的、找产品设计师的、找锁匠的……来电者显然是被 GoogleAI 指错了方向。

今年 3 月，一位以色列的软件开发者在 WhatsApp 上被陌生人联系，原因是 Google 的聊天机器人 Gemini 给出了错误的客服指引，里面包含了他的手机号。

（来源：麻省理工科技评论）

4 月，华盛顿大学一位博士生在 Gemini 上随便输入了一个指令，就让它吐出了同事的私人手机号。

AI 相关隐私投诉暴增 400%

AI 聊天机器人泄露手机号的频率到底有多高，无法确切统计，但专家们认为实际发生的次数远多于公开报道的。

DeleteMe 是一家帮客户从互联网上删除个人信息的公司。该公司表示，过去七个月里客户关于生成式 AI 的咨询量增长了 400%，达到几千条。这些咨询“专门提到了 ChatGPT、Claude、Gemini 或其他生成式 AI 工具”，公司联合创始人兼 CEO 罗布·沙维尔（Rob Shavell）说。具体来看，55% 的投诉涉及 ChatGPT，20% 涉及 Gemini，15% 涉及 Claude，10% 涉及其他 AI 工具。

沙维尔说，客户关于个人信息被大语言模型暴露的投诉通常有两种形式：一种是”客户随便问了聊天机器人一些关于自己的问题，结果得到了准确的家庭住址、电话号码、家人姓名或雇主信息“。另一种是聊天机器人把别人的个人数据暴露给了用户——“它生成了看起来像真的、但其实是错误的联系方式”。

丹尼尔·亚伯拉罕（Daniel Abraham）的遭遇就属于第二种。这位 28 岁的以色列软件工程师说，3 月中旬有个陌生人通过 WhatsApp 给他发了“一条来自未知号码的奇怪消息”，请他帮忙处理 PayBox（一款以色列支付应用）的账户问题。

“我以为是垃圾信息，”他在给《麻省理工科技评论》的邮件中写道，“我以为有人在整我。”

但当他问对方怎么找到他的号码时，对方发来了一张 Gemini 的截图：Gemini 生成的 PayBox 客服指引中，给出的 WhatsApp 联系方式正是他的私人号码。亚伯拉罕并不在 PayBox 工作，而且 PayBox 也没有 WhatsApp 客服号码——PayBox 的客服代表埃拉德·加贝（Elad Gabay）确认了这一点。

后来亚伯拉罕自己在 Gemini 上问“怎么联系 PayBox”，结果它生成了另一个人的 WhatsApp 号码。我最近也试了同样的问题，Gemini 又给出了一个以色列手机号，这个号码属于一家与 PayBox 合作的信用卡公司，而不是 PayBox 本身。

亚伯拉罕与那位陌生人的对话很快就结束了，但他担心类似的事情在其他场景下可能迅速恶化，产生“骚扰或其他不愉快的互动”。“如果我为了‘解决’他的客服问题而开口要钱呢？”他说。

为了弄清楚这是怎么发生的，亚伯拉罕用自己的手机号在 Google 上做了一次普通搜索，发现这个号码曾经在 2015 年被发布在一个类似知乎的以色列本地网站上。虽然他不确定是谁发的，但这可能解释了为什么十多年后他的号码会被 Gemini 再次生成出来。

Gemini、OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等聊天机器人都基于大语言模型构建，训练数据是从互联网上大规模抓取的，这些数据中不可避免地包含了数以亿计的个人身份信息（PII）。比如一个广泛使用的大型开源数据集 DataComp CommonPool（曾用于训练图像生成模型）里就包含了简历、驾照和信用卡的副本。

随着公开数据逐渐“用完”、AI 公司寻找新的高质量训练数据来源，个人信息出现在训练数据中的概率只会越来越高。这些来源包括数据中间商和人员搜索网站：根据加州数据中间商登记信息，该州 578 家注册数据中间商中有 31 家自行报告称“在过去一年中曾向生成式 AI 系统或模型的开发者共享或出售过消费者数据”。

此外，模型已知会从训练数据中逐字记忆和复制内容。最新研究还表明，被记住的不仅仅是出现频率最高的那些数据。

不完善的防护

现在的标准做法是在大语言模型的设计中加入护栏来限制某些输出，从用于识别和阻止聊天机器人泄露个人信息的内容过滤器，到 Anthropic 对 Claude 的指令，都优先选择“包含最少他人个人、私密或机密信息”的回答。

但正如华盛顿大学两位研究隐私与技术的博士生最近亲身经历的，这些防护措施并不总是管用。

“有一天我就是在 Gemini 上随便玩，搜了搜我的朋友兼合作者雅尔·艾格（Yael Eiger）的名字，”梅拉·吉尔伯特（Meira Gilbert）说。她输入的是“Yael Eiger contact info”，Gemini 先是展示了艾格的研究概况，但接着还返回了艾格的私人手机号。“太震惊了。”吉尔伯特说。

看到这个结果后，艾格回忆起她确实在前一年为一个技术工作坊公开分享过自己的手机号。但她没有预料到这个信息会如此轻易地被全世界的人看到。

“你的信息原本只对某个特定群体可见，然后 Gemini 让任何人都能看到。”艾格说，这感觉完全不同——尤其是当她发现这个信息在普通 Google 搜索中其实是很难找到的。

“它被严重降权了，”吉尔伯特确认说，“如果只是翻 Google 搜索结果，我绝对找不到。”（我本月早些时候用同样的提示词在 Gemini 上试了一下，起初被拒绝，但随后工具还是给出了艾格的号码。）

这次经历之后，艾格、吉尔伯特和另一位华盛顿大学博士生安娜-玛丽亚·格奥尔基耶娃（Anna-Maria Gueorguieva）决定测试 ChatGPT，看看它会透露关于一位教授的什么信息。

一开始 OpenAI 的护栏起了作用，ChatGPT 表示该信息不可用。但就在同一个回答中，聊天机器人建议说：“如果你想深入挖掘，我可以试试更‘调查式’的方法。”只需要提供一些信息来“缩小范围”，ChatGPT 说，比如“猜一下那位教授住在哪个社区”或者“可能的房产共有人姓名”。ChatGPT 还说：“这通常是找到较新的或刻意不公开的房产记录的唯一方法。”

学生们提供了这些信息，ChatGPT 随即生成了这位教授的家庭住址、购房价格和配偶姓名，来源是城市房产记录。

OpenAI 的代表塔亚·克里斯蒂安森（Taya Christianson）表示，在没有看到截图、不知道学生测试的是哪个模型的情况下，她无法对此事做出评论——尽管我们指出很多用户在 ChatGPT 界面上可能并不知道自己在用哪个模型。针对个人信息泄露的问题，她发来了几个链接，介绍 OpenAI 如何处理隐私问题，包括过滤个人信息等工具。

DeleteMe 的沙维尔说，这暴露了聊天机器人的一个根本矛盾：AI 公司“可以设置护栏，但聊天机器人同时也被设计成要有效地回答用户的问题。”

这个问题不只存在于 Gemini 和 ChatGPT。去年 Futurism 发现，如果你在 xAI 的聊天机器人 Grok 上输入“[某人姓名] 地址”，几乎每次它都不仅给出了住宅地址，往往还附上了电话号码、工作地址，甚至名字相似的人的地址。（xAI 没有回应置评请求。）

没有简单的解决办法

这个问题目前没有简单的解决方案。无论是验证你的个人信息是否存在于某个模型的训练集中，还是迫使模型删除这些信息，都做不到。

斯坦福大学以人为本人工智能研究所的隐私与数据研究员珍妮弗·金（Jennifer King）说，理想情况下消费者应该能要求删除自己的个人信息。但在实践中这通常被理解为只适用于用户直接提供给公司的数据，比如你跟聊天机器人对话时留下的数据。

“我都不知道 Google 有没有这个能力……对我说‘是的，我们的训练数据里有你的信息，我们可以总结一下我们知道些什么，然后删除或修正那些错误的或你不想保留的东西’。”她说。

诸如《加州消费者隐私法》或欧洲的 GDPR现有的隐私法，这些现有的法律并不覆盖那些已经被抓取并用于训练大语言模型的“公开可用”信息，尤其是其中很多数据已经被匿名化处理了（虽然也有多项研究表明，从匿名化和化名数据中推断出真实身份和个人信息是多么容易）。

至于 AI 公司“有没有系统性地回溯检查过已经从公开互联网上收集的数据，把个人信息清理掉？”金补充说，“完全不知道。”

退而求其次的方案是公司“把所有人的电话号码或所有看起来像电话号码的数据都剔除掉”，金说，但“没有人愿意说自己在这么做”。

托管开源数据集和 AI 模型的平台 Hugging Face 提供了一个工具，用户可以搜索某条数据（比如自己的电话号码）在开源 LLM 训练集中出现过多少次，但这不一定代表那些驱动 Claude、ChatGPT 和 Gemini 等主流聊天机器人的闭源模型里的情况。（比如艾格的号码在 Hugging Face 的工具中就没有显示。）

Gemini 应用和 Google Labs 的传播负责人亚历克斯·约瑟夫（Alex Joseph）没有回应具体提问，但他说团队正在调查《麻省理工科技评论》提出的几个特定案例。他还提供了一个帮助文档的链接，描述用户如何“反对对你个人数据的处理”或“要求修正 Gemini 应用回答中不准确的个人数据”。页面指出公司的回应将取决于用户所在司法管辖区的隐私法。

OpenAI 有一个隐私门户，用户可以提交请求，要求从 ChatGPT 的回答中移除自己的个人信息，但注明公司会权衡隐私请求与公共利益，“如果有合法理由，可能会拒绝请求”。

Anthropic 描述了它在模型训练中如何使用个人数据，但没有提供明确的途径让用户要求删除。该公司没有回应置评请求。

目前，想保护自己隐私数据的人最好的办法是“从源头做起。在下一次抓取之前，把个人数据从公开网络上清除掉。”沙维尔说。比如从今年起，加州已为居民提供了一个网页门户，可以要求数据中间商删除他们的信息。不过这也不能保证你的数据没有已经被用来训练模型——因此仍然可能出现在聊天机器人的回答里。

那位在 Reddit 上求助的用户写道，他“已经向 Google 提交了正式的法律移除/隐私请求，要求紧急将我的号码从他们 LLM 的输出中屏蔽”，但还没有收到回复。他上个月还写道“骚扰每天都在继续”。

以色列软件开发者亚伯拉罕说他在 3 月 17 日（号码被泄露的第二天）就联系了 Google 客服，但直到 5 月 4 日才收到回复，而回复只是要求他提供他已经提交过的材料。

与此同时，受到自己在 Gemini 上隐私被暴露的启发，艾格与吉尔伯特和格奥尔基耶娃一起正在设计一个研究项目，进一步调查各种 AI 聊天机器人在泄露哪些个人信息——以及它们可能知道、但还没有输出的信息。

有些信息“从技术上说是公开的”，吉尔伯特说，但聊天机器人可能正在改变“你找到这些信息所需的努力程度”。以前你要翻十页 Google 搜索结果，或者花钱从数据中间商那里买，现在“生成式 AI 是不是直接降低了针对他人的门槛？”