AI训练数据治理的“术”与“道”-墙外头条

人工智能正以前所未有的速度重塑人类社会的生产生活方式。数据显示，2025年我国人工智能企业数量已超过6000家，核心产业规模预计突破1.2万亿元。人工智能正加速融入千行百业，成为培育新质生产力的重要引擎。

然而，在人工智能产业高歌猛进的同时，一个根本性的安全问题不容忽视：驱动人工智能发展的海量训练数据，是否合法安全？人工智能的“源头”若受污染，下游应用必将面临极大的风险。正因如此，人工智能训练数据的治理问题引发了广泛关注。

今年全国两会期间，许多代表建议，要加强数据语料源头治理。这传递出明确的信号：人工智能训练数据治理已刻不容缓，要推动人工智能健康发展，必须净化数据源头，筑牢安全底座。

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上，绘画机器人演示作画。新华社发

数据之“患”：

“先使用后治理”的风险

当下，海量数据是训练人工智能模型的重要基础。因此，人工智能企业把训练数据视为“多多益善”的资源，努力获取海量数据并快速用于训练。但问题在于，一些企业往往按照“先使用后治理”思路来获取和使用训练数据，忽视了其中潜在的合法性和安全性风险。

首先是合法性风险。海量训练数据来源往往非常复杂，其中可能还包含个人信息、作品、数据集合等承载他人权益的数据，如果企业未经相关权益人许可就使用这些数据，将面临着因违法而被事后追责的风险。早在2024年，北京互联网法院就受理了全国首例人工智能训练数据侵害著作权案。

其次是安全性风险。训练数据中如果包含虚假失实、低俗暴力、歧视侮辱等违法不良信息，经过训练的人工智能模型就有可能记住这些信息，进而引发输出违法不良信息的安全风险。

治理之“术”：

从事后治理到来源和过程管理

面对人工智能训练数据相关的合法性和安全性风险，企业不能沿着“先使用后治理”的老路走下去。这些风险很容易沿着“开发—部署—应用”的链条层层传导，等到出现问题再事后解决，不仅治理成本更高，也难以彻底消除影响。对企业而言，真正有效的做法，是把风险管理前移，从事后补救转向来源和过程管理。

首先，企业要盯紧数据获取的源头关。训练数据从哪里来、是否涉及他人权益、是否经过授权，都应当在数据收集时进行确认和记录。对来源不清、授权不明、风险较高的数据，不宜抱着“先用起来再说”的心态，而应当在使用上更加审慎。

只有厘清训练数据的来源，企业才能有效地确保训练数据的合法性，并且在需要事后补救的情形下也能有效地开展溯源工作。

2025年6月18日，广西柳州市北部生态新区机器人产业园中的人形机器人。图源：人民图片

其次，企业要把好数据使用的过程关。训练数据清洗是影响模型安全的重要环节。如果训练数据清洗工作不到位，虚假失实、低俗暴力、歧视侮辱等违法不良信息就可能被带入训练过程，进而影响模型输出。

因此，企业应当建立合理的清洗标准和审核机制，保障训练数据不被违法不良信息污染。此外，企业还要建立全周期、全流程的数据使用管理机制，明确数据的使用目的、方式和范围，确保训练数据的安全性。

平衡之“道”：

在安全与发展间寻找法治支点

加强人工智能训练数据治理，不能仅依赖企业的自律自治，还需要依托法治的监督规范。法治的介入，并不是要给人工智能发展踩刹车，而是要为其校准方向。这里的关键在于把握好安全与发展的关系，在两者之间寻找合适的支点，既让数据安全有保障，也让产业发展有空间。

一方面，要通过细化立法和压实执法来保障训练数据合法安全。当前，我国在数据安全、个人信息保护、知识产权等领域已形成较为完整的立法体系，关键是要结合人工智能训练数据的特点，进一步细化相关主体的法定义务和责任。同时，要压实执法力度，对非法获取、违规使用训练数据以及由此引发安全风险的行为依法查处，提高违法成本，形成有效震慑。

北京人形机器人创新中心前瞻布局专业化的数据采集基地资料图。图源：北京发布

另一方面，也要加强数据基础制度规则建设，助力人工智能产业健康发展。法治对人工智能产业的促进作用，主要体现在通过明确数据利用的边界，为产业提供清晰的规则和稳定的预期。结合“十五五”规划要求，应当“建立健全数据产权、流通利用、收益分配、安全治理等数据要素基础制度”，“建立人工智能训练数据合理使用制度”，从而让企业清楚哪些数据能用、如何使用、责任边界在哪里，才能真正引导人工智能产业有序发展。

说到底，人工智能竞争比拼的不只是技术和商业方面的成功，还有安全和治理方面的能力。只有把训练数据这一“源头”治好，我国的人工智能技术和产业才能走得更快、更远、更好。