AI训练数据治理的“术”与“道”

2026-03-28 17:25:10 · chineseheadlinenews.com · 来源: 长安街知事

人工智能正以前所未有的速度重塑人类社会的生产生活方式。数据显示,2025年我国人工智能企业数量已超过6000家,核心产业规模预计突破1.2万亿元。人工智能正加速融入千行百业,成为培育新质生产力的重要引擎。

然而,在人工智能产业高歌猛进的同时,一个根本性的安全问题不容忽视:驱动人工智能发展的海量训练数据,是否合法安全?人工智能的“源头”若受污染,下游应用必将面临极大的风险。正因如此,人工智能训练数据的治理问题引发了广泛关注。

今年全国两会期间,许多代表建议,要加强数据语料源头治理。这传递出明确的信号:人工智能训练数据治理已刻不容缓,要推动人工智能健康发展,必须净化数据源头,筑牢安全底座。

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。新华社发

数据之“患”:

“先使用后治理”的风险

当下,海量数据是训练人工智能模型的重要基础。因此,人工智能企业把训练数据视为“多多益善”的资源,努力获取海量数据并快速用于训练。但问题在于,一些企业往往按照“先使用后治理”思路来获取和使用训练数据,忽视了其中潜在的合法性和安全性风险。

首先是合法性风险。海量训练数据来源往往非常复杂,其中可能还包含个人信息、作品、数据集合等承载他人权益的数据,如果企业未经相关权益人许可就使用这些数据,将面临着因违法而被事后追责的风险。早在2024年,北京互联网法院就受理了全国首例人工智能训练数据侵害著作权案。

其次是安全性风险。训练数据中如果包含虚假失实、低俗暴力、歧视侮辱等违法不良信息,经过训练的人工智能模型就有可能记住这些信息,进而引发输出违法不良信息的安全风险。

治理之“术”:

从事后治理到来源和过程管理

面对人工智能训练数据相关的合法性和安全性风险,企业不能沿着“先使用后治理”的老路走下去。这些风险很容易沿着“开发—部署—应用”的链条层层传导,等到出现问题再事后解决,不仅治理成本更高,也难以彻底消除影响。对企业而言,真正有效的做法,是把风险管理前移,从事后补救转向来源和过程管理。

首先,企业要盯紧数据获取的源头关。训练数据从哪里来、是否涉及他人权益、是否经过授权,都应当在数据收集时进行确认和记录。对来源不清、授权不明、风险较高的数据,不宜抱着“先用起来再说”的心态,而应当在使用上更加审慎。

只有厘清训练数据的来源,企业才能有效地确保训练数据的合法性,并且在需要事后补救的情形下也能有效地开展溯源工作。

2025年6月18日,广西柳州市北部生态新区机器人产业园中的人形机器人。图源:人民图片

其次,企业要把好数据使用的过程关。训练数据清洗是影响模型安全的重要环节。如果训练数据清洗工作不到位,虚假失实、低俗暴力、歧视侮辱等违法不良信息就可能被带入训练过程,进而影响模型输出。

因此,企业应当建立合理的清洗标准和审核机制,保障训练数据不被违法不良信息污染。此外,企业还要建立全周期、全流程的数据使用管理机制,明确数据的使用目的、方式和范围,确保训练数据的安全性。

平衡之“道”:

在安全与发展间寻找法治支点

加强人工智能训练数据治理,不能仅依赖企业的自律自治,还需要依托法治的监督规范。法治的介入,并不是要给人工智能发展踩刹车,而是要为其校准方向。这里的关键在于把握好安全与发展的关系,在两者之间寻找合适的支点,既让数据安全有保障,也让产业发展有空间。

一方面,要通过细化立法和压实执法来保障训练数据合法安全。当前,我国在数据安全、个人信息保护、知识产权等领域已形成较为完整的立法体系,关键是要结合人工智能训练数据的特点,进一步细化相关主体的法定义务和责任。同时,要压实执法力度,对非法获取、违规使用训练数据以及由此引发安全风险的行为依法查处,提高违法成本,形成有效震慑。

北京人形机器人创新中心前瞻布局专业化的数据采集基地 资料图。图源:北京发布

另一方面,也要加强数据基础制度规则建设,助力人工智能产业健康发展。法治对人工智能产业的促进作用,主要体现在通过明确数据利用的边界,为产业提供清晰的规则和稳定的预期。结合“十五五”规划要求,应当“建立健全数据产权、流通利用、收益分配、安全治理等数据要素基础制度”,“建立人工智能训练数据合理使用制度”,从而让企业清楚哪些数据能用、如何使用、责任边界在哪里,才能真正引导人工智能产业有序发展。

说到底,人工智能竞争比拼的不只是技术和商业方面的成功,还有安全和治理方面的能力。只有把训练数据这一“源头”治好,我国的人工智能技术和产业才能走得更快、更远、更好。


    24小时新闻排行榜更多>>
  1. 蔡奇目露杀机 他看习近平的眼神好吓人
  2. 中共监狱逼法轮功学员放弃修炼 手段残暴
  3. 傳溫家寶懟習近平 不和你玩了 我要退黨
  4. 广州已有四任书记出事 消息称郭永航案涉珠海
  5. 猪价“反内卷”,为何散户倒大霉?
  6. 熬夜时心脏“咯噔”一下,咋办?
  7. 美国对伊朗"狂射850枚战斧",超过1年产量!
  8. 欧洲议会8年来首次,临行前还对中国“留几手”
  9. 妻子由男医生产检,丈夫崩溃撞墙
  10. 钱给再多,瞿颖也不上钩
  11. 李昌钰在家突然离世,相伴7年的妻子含泪发文悼念
  12. 川普:伊朗战争结束后经济将“火箭式”腾飞
  13. 鲁比奥和其他G7外长们互喷,德国外长:气死了
  14. 出大事?传中共军事演习误射烟雾弹击中观察员人群
  15. 中国经济学家巴曙松疑被带走 内情曝光
  16. “速效救心丸”搜索量暴涨30倍 医生紧急提醒
  17. 末日场景?澳大利亚多地惊见红色天空
  18. 张雪峰是“中式聪明人”吗?他为何能贩卖焦虑?
  19. 美国宇航员太空紧急撤离原因披露
  20. 中东战火蔓延,全球能源市场面临冲击波
  21. 湾区民运人士集会 声援异议人士钱辰昌
  22. 丁奎岭寄语上海交大毕业研究生
  23. 忧个资外泄,移民报税人数缩水
  24. 川普预告古巴可能是下一个军事行动目标
  25. 传温家宝怼习近平 不和你玩了 我要退党
  26. 天津海边罕见“蓝眼泪”奇观 游泳者称“海上鬼火”
  27. 波兰网红Stan南湾开讲 免费座谈揭AI资讯战
  28. 伊朗:将加快人道主义货船通行霍尔木兹海峡
  29. 盛雪:中共对伊朗暴政的全面武装(六)
  30. 川普:伊朗战事还剩3554个目标 将很快完成
  31. 利润涨三倍市值却蒸发千亿 泡泡玛特怎么了
  32. 犹如针尖对麦芒,美伊和谈“几近死局”
  33. 41岁东北汉子离婚跑海上避世,竟深陷美伊战火
  34. 美众院通过60天DHS拨款案 参院恐难过关
  35. 复活节Storytime南湾登场 亲子齐聚捡彩蛋
  36. 马兴瑞案件同伙郭永航常用新词、辣词、流行词 ?
  37. 狮子都怕它?刚果雨林的“狮子杀手”
  38. 美国“最强导弹”,击落了美国“最强战机”
  39. 伊朗战争验证了北京当局的战略方向是对的
  40. 川普坚称伊朗须开放荷莫兹海峡
  41. 速效救心丸,鱼油真能保命吗?
  42. 否决拨款方案,国安部部分停摆
  43. “不要国王”第三度上街 民众盼期中选举给川普好看
  44. 京圈“富二代”落马,该对有钱人祛魅了
  45. 外媒关注重庆巫山神女大扶梯
  46. 以色列被炸成第二个加沙
  47. 林宜敬南湾简报数位政策 聚焦资安发展方向
  48. 以军炸伊核设施 伊朗袭沙特基地致美军受伤
  49. 疯狂小扎边裁员边给高管发钱
  50. 遭中国学界集体抵制后,AI顶会紧急道歉
  51. 传音之后,华为继续起诉迪士尼的流媒体业务
  52. 众院共和党人挡下参院法案 美机场安检乱象未解
  53. 美豁免制裁后 伊朗石油流向从中国转到印度
  54. 中国释放强有力的稳定开放信号
  55. 加拿大军费暴涨至600亿 达到北约国防开支目标
  56. 美国如此富有,为何美国人却如此痛苦
  57. 一场外卖大战,美团得与失
  58. 伊朗军援到了?传俄供“升级版”无人机 难以击落
  59. 河南项城惊传中学生持刀杀人 致1死
  60. 我对近期市场的观察和思考