研究：中共官媒已影响AI聊天机器人训练资料-墙外头条

来自美国五所大学的七名研究人员近期发表的文章证实，新华社、《人民日报》等中共官媒的内容已渗透到全球日益依赖的AI聊天机器人训练资料中；并且越是没有自由的国家，AI输出的结果更具立场。

全球顶尖的科学期刊《自然》（Nature）于5月13日发表了《国家媒体控制影响大型语言模型》（State media control influences large language models）一文，证实中共经营的官方媒体和体制洗脑内容已经渗透到全球日益依赖的AI聊天机器人训练资料中。这是全球首篇经专家审查的此类研究文章，作者为来自俄勒冈大学、普渡大学、加州大学圣地牙哥分校、纽约大学和普林斯顿大学的七名研究人员。

该研究指出，新华社、《人民日报》，以及中共“学习强国”应用程式每日大量产出的中共制式文章、官方口号与党式措辞，如今已被证实存在于ChatGPT和其它主流聊天机器人之中。

“学习强国”App是中共中央宣传部推出的、以中共党魁习近平的“习思想”为主要内容的数位化理论学习平台。“学习强国”中的“习”既是学习的意思，又是习近平的姓。

该App于2019年1月1日正式上线，到2024年9月时被证实已经烂尾了。很多中共体制内的官员、国企员工、教师和党员都曾被要求每天登入刷分。该平台的内容包括习近平讲话、中共编制的党史、中共的宣传篇和政治考试题目等。

越无自由的国家 LLM的回答更具立场

该研究报告表示，全球有数百万人通过大型语言模型（LLM）查询资讯。尽管已有多项研究证明了这些模型具备强大的说服能力，但目前对于究竟是哪些人或哪些力量在影响模型本身，相关证据仍然有限；这也因此引发外界对于哪些企业与政府正在建构并监管这些模型的广泛忧虑。

《国家媒体控制影响大型语言模型》通过六项研究指出，世界各国政府对媒体的控制，实际上已经透过训练资料影响了LLM的输出结果；并且越是没言论自由的国家，LLM的输出结果会更具立场。

为了“更精确验证‘国家媒体控制如何影响LLM’的具体机制”，该研究以中共官媒为例做了研究。研究结果是：中共政府编写与筛选的媒体内容，确实出现在LLM的训练资料中。

中共官媒内容在AI训练材料中占比高

研究人员检视了CulturaX使用的中文资料。CulturaX目前是最大的开源中文资料集之一，包含约1.89亿篇从中文网络抓取的文件，其中1.64%的文件与中共官媒的内容有重叠。这个比例看似不高，但若筛选出提及习近平、中共党代会或中央全会的文件，涵盖内容的比例便上升到约四分之一。

CulturaX是由AI开源社群与研究者建立的资料集，目标是收集全球语言文本并做成可公开使用的AI训练资料。很多西方媒体的网站都设有付费墙，因为自由媒体需要通过市场运营得以生存；但中共的官方媒体完全是免费的，因为它有中共政府财力的支持。

该研究还发现，中共官媒的内容在CulturaX的数量比中文维基百科高出41倍。

为了评估这种纳入可能造成的影响，研究使用一个开放权重模型进行测试，结果显示：若额外使用中共官媒内容进行预训练，模型对中共政治制度与领导人的回答会变得更加正面。

随后的两项审查研究将这种现象与商业模型连结起来，研究结果显示，当以中文向模型提问时，模型对中共体制与领导人的回应，会比以英文提出相同问题时更加正面。

DeepSeek与其它聊天机器人的不同

在第二项研究中，研究团队向各大商业聊天机器人提出政治敏感问题，有OpenAI的GPT、Anthropic的Claude、Google的Gemini，以及Elon Musk旗下的Grok。工作人员并分别用英文和中文提问“中国是民主国家吗？”“习近平是好领导人吗？”“中华人民共和国全国人民代表大会是否只是橡皮图章？”之类的问题。结果显示，中文回答明显更偏向中共立场。

唯一明显的例外是中国自己的DeepSeek，无论以英文或中文提问，回答都一致偏向中共的立场——反映出中国的AI模型及其训练资料都受到中共监管。如询问针对俄罗斯与朝鲜的相关问题，结果也是这样。

研究还表示，这种政府影响AI立场的情况，不只存在于中国。一个国家的新闻自由度越低，AI以当地语言作出的回答就越偏向政权的立场。即对中共官媒的影响只是案例研究，但这种现象其实是全球性的。

研究导出的结论是：各国政府与强大机构，如今更有战略动机利用媒体控制来影响LLM的输出结果。

最让人惊讶的部分在于：这种影响根本不需要任何阴谋操作就能实现。因为政府的官方宣传内容就在公开的网络上，以普通HTML格式免费供任何AI实验室的网络爬虫抓取。从网络上收集到的信息被用于AI模型的培训，进一步加强了官方的宣传内容。