token中文名为何定为“词元”?
2026-03-27 00:25:16 · chineseheadlinenews.com · 来源: 中国科学报
近日,全国科学技术名词审定委员会发布《关于发布试用人工智能领域名词token中文名“词元”的公告》,决定在综合考量社会各界意见建议的基础上,优先推荐“词元”作为人工智能领域名词token的中文名,并面向全社会发布试用。
“词元”这一定名符合单义性、科学性、简明性、协调性等科技名词审定原则,该定名经全国计算机科学技术名词审定委员会审定后,由全国科学技术名词审定委员会批准向全社会发布试用。
清华大学计算机系副教授东昱晓认为,“词元”的定名捕捉了其在人工智能语言模型中作为“基本离散符号单元”的本质,又可以通过类比自然延伸至多模态领域。在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出token与表达对象语义的密切关联;“元” 传达出“基本单元”之意,与 “元素”等术语中的“元”保持一致的语义脉络。
“token”一词源于古英语tācen,意为“符号”或“标记”。在语言模型中,token是文本经过切分或字节级编码后得到的最小离散单元。它既可能是人类语言意义上的词串、单个词,也可能是词根、词缀、子词或单个字符。语言模型通过对token序列建模,展现出一定的智能水平。
全国计算机科学技术名词审定委员会副主任委员兼人工智能分委员会主任委员、中国科学院计算技术研究所研究员陈熙霖表示,“词元”一词可以将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合其在人工智能中的初始角色。
随着大模型从纯文本走向多模态,“token”的所指已经扩展。图像被切分为“图像块”并映射为嵌入序列,语音片段可以被量化编码为离散单元,这些单元在多模态模型中同样被称为token,主要建模手段仍为序列模型。
此时,“词元”中的“词”在这里超越了人类语言意义上的“词”,却能暗合术语命名中普遍存在的类比思维——将非文本模态的离散基本单元,也视作“广义的词”。这种用法与“词云”(word cloud)、“词袋”(bag of word)类似,虽由文本衍生,但已成为人工智能领域中表达更宽泛语义的通用术语。“词元”在跨模态场景中承载了“离散基本单元”的语义,这种语义普遍存在于所有模态之中。
在中文文献、技术文档及学术交流中,“词元”作为描述大模型中token的一个译名,逐渐被学术界很多学者所认同。token是模型将数据映射为离散符号序列的基本单位,本身并不携带智能,只是承载信息的载体;它与“嵌入”“注意力”“隐状态”等术语并列时,保持了风格一致性;它符合中文“二字词”偏好,表述简洁,易于传播。
来自国家数据局的数据显示,2024年初,中国日均词元(Token)调用量为1000亿;至2025年底,跃升至100万亿;今年3月,已突破140万亿,两年增长超千倍。
据悉,该中文定名将在计算机科学技术名词常态化审定工作中,结合社会推广应用情况最终确认。