登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
专栏 AI

Token翻译为词元的得失是什么?

刘远举:词元这个字面翻译更多地保留了形式上文字的纯洁性,但并不能争取到所谓的话语权,而在语义上的丢失,则会产生深远的技术影响。

2026年3月23日,全国科学技术名词审定委员会发布公告推荐“词元”试用,AI领域核心术语Token定下正式中文译名“词元”。

好的翻译的确利于技术的科普和传播。laser刚进入中国时,大陆最初音译为“来塞”,台湾地区则叫作“镭射”,此外还有其他译法,混乱的译法给科研交流、科普带来了极大困扰。钱学森反复斟酌,将laser统一译为“激光”。这一译法简洁精准,既体现了激光是电子受激发后产生的这一技术特征,也方便了公众认识。这个翻译比台湾“镭射”的译法更好,虽然镭射有音译的成分,但因镭字与放射性元素“镭”相关,在当时还引发了恐慌。

但问题是,laser是一个相对单一的概念,而Token的含义则很多。

Token是AI大模型处理的数据最小单元。早在大语言模型之前,AI有一个领域叫作“自然语言处理”,简称NLP。在NLP中,Token表达的就是词、语素、词位等各种语言符号的最小单元,翻译成“词元”是很合适的。

后来,transformer模型从nlp领域,向图像领域等更多模态延展。比如,将图像分割为16×16的小块(patches),每个patch就是一个“Token”。从nlp领域延伸过来,自然也就沿用了nlp领域的术语。不过,一般视觉模型的论文中会写成image token,别的模态也会加上相应的前缀。

随着多模态大模型的发展,Token不再局限于语言,而是变成了AI能处理一切离散符号的最小单元,图像、视频、声音等都可以拆解成token,再用token作为单位来计算算力耗费。

所以,“词元”从字面上理解,概念比token变窄了。有程序员吐槽:“token在AI里不只是处理文字,现在图像、视频、语音都会被‘token化’处理,token既可以是一个汉字、一个词根,也可以是一张图片的像素块、一段语音的片段。‘词元’里的‘词’字,直接把非文字模态排除在外,太片面了!”难道未来还要有“图元” “视频元” “音元” 吗?

这就会导致一个问题。

维特根斯坦认为,语言通过逻辑结构与世界形成映射关系。在我看来,这种映射关系是多元的、整体的。翻译必然丢掉其中一些映射关系。举一个汉语的例子,花这个字的意思,最基本的含义是植物的器官。这个本意衍生出烟花、校花这类意义。花从名词又衍生出形容词的含义,形容颜色、式样复杂。这个意思,又再次递进,用来形容磨损或破损——因为磨损后的形态、形状、图案是复杂的,比如,玻璃花了,鞋子磨花了。因为磨损的意思,花字又产生了一个动词意义:花费、花销、浪费。

动词意义的花费、花销;加上形容词的样式复杂;再加上花本身的名词意义,综合在一起,就是“花天酒地”这个成语中“花”的意思,表达一种铺张浪费、花样繁多、女性混合在一起的综合性、整体性意境。

这种整体性的含义,母语是中文的人,不难理解。但对学中文的外国人而言,他们想要理解“花朵”和“花钱”,为什么都是花字,是很难的——这就像中国人学英语那样。至于外国人要领会“花天酒地”这个成语中的“花”字的整体性含义,就得要很多年,浸淫中文语境,才能领悟。

同样的,如果把一张猫咪图片拆解成token,说成拆解成词元。这不仅仅是不符合日常认知,也不仅仅是会给科普带来困扰,更关键的是,缺失了整体性,会影响认知框架,会对技术思维方式,形成潜移默化的影响。今后无数的技术人员,在使用token这个词的时候,他们的思维会潜移默化地、更多地将token视为一个词。所以,当词元的含义更狭窄的时候,使用词元的人,对技术的思考也会相应变窄。

一个“言说”影响思维的例子是,转基因如果叫作生物育种,预制菜叫作塑料罐头,那么,引发舆论的可能,引发舆论的强度就会小得多。因为育种和罐头,都是“传统”之物。这就是“名词中自带的观点”。

自动控制领域的术语robust,在学术圈被统一翻译为“鲁棒”性。“鲁棒”在中文里没有任何语义联想,在公众传播层面,遭到一定的吐槽。有人调侃:“第一次看到‘鲁棒性’,我还以为是山东出产的棒球棍。”但这是一个专业名词,首先应该考虑的不是公众传播,公众自然会慢慢明白其意思。这类名字的翻译,更需要考虑的是技术传播。“鲁”“棒”字,很好地包含了robust的整体性意思,不妨碍技术思维,所以,在我看来,这是一个很好的翻译。

20世纪90年代,互联网进入中国时,Internet曾有“因特网”“信息网络”“互联网”等多种译法,然后权威统一定为“因特网”。不过,在后来的文字演变中,“互联网”胜出。其实,“因特网”这个翻译,没有考虑太多的语言在文化意义上的纯洁,采用了音译,在我看来,就是为了更好地保留其整体意义。

所以,token翻译为词元,是有所失的。凡事皆有得失,那么,“得”是什么呢?

有一种说法,统一译名,是语言权力博弈,是在争夺国际AI技术话语权。这种情况是存在的。典型的例子是对龙的翻译。中国龙和西方龙,是不一样的。中国龙是祥瑞神兽、象征皇权,西方龙是邪恶怪物,往往要被骑士斩杀。英语中把龙翻译为dragon,是找了一个英语语境中,最接近的形象。但西方传统观点在潜移默化中,就会产生对中国龙不好的印象,进而影响对中国文化、中国的印象。所以,中国主动澄清,推广龙的音译long,是一个典型的消除文化误会,争夺国际话语权的例子。

另一个例子是汉城。汉城因位于汉江之北,得名“汉阳”。14世纪末朝鲜王朝定都汉阳后,改名为“汉城”。英语根据韩语发音,直译为Hanseong”,然后,中文又根据拼写和发音,译为汉城。汉城带有浓厚的古代政治文化色彩,使人容易联想到韩国曾臣服于中国。“Seoul”一词在韩语中本意为“首都”,早在19世纪末已非正式用于国际交流。到了2005年,韩国政府正式宣布“Seoul”为唯一官方英文名称,并明确要求国际社会停止使用“Hanseong”,自然也就涉及到中文的“汉城”。怎么翻译,当然是一国自己的事,但尊重他国意愿,中国也采用了“首尔”这个译法。推动这一更名,体现了韩国强化文化主体性的意图。

问题是,前面两个例子,都是主动干涉其他语言翻译自身语言,但Token的英译汉,仅仅是一个翻译问题,不管中国人如何翻译,英语中始终叫“token”,毫无影响。就像你在自己家里,把猫叫作狗,狗叫作猫,这也丝毫影响不了其他人怎么叫,更谈不上所谓的争夺猫狗话语权。这就像Chip一词,不管是翻译为“芯片”“晶片”“集成电路”还是“水晶宝石”“沙之宝”,都是中国人关起门来的事,与中国大陆半导体行业在全球话语体系中的主体性,没有丝毫的关系。

实际上,英语对dragon的翻译,就是一个典型“非要用现存的词语去套外来概念,进而产生误导”的例子。对token的翻译,和西方对龙的翻译,是一模一样的。

所以,采用词元这个字面翻译,更多地保留了形式上文字的纯洁性,但并不能争取到所谓的话语权,而在语义上的丢失,则会产生深远的技术影响。

(本文仅代表作者本人观点,责编:闫曼 man.yan@ftchinese.com)

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

读者评论

用户名:
FT中文网欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
用户名
密码

远观近思

刘远举,重庆人,先学理工科再学经济学,从事过咨询行业,现为自由撰稿人。关注时政、财经、科技,旨在探寻现象背后的事实与公正。文风理性、客观,且用人性的温度替换虚伪的中立。微博ID@刘远举。

相关文章

相关话题

英国学生公寓热潮的后遗症

人们对专用学生住宅的可负担性、以及其对社区影响的忧虑与日俱增。

身陷能源危机漩涡中心的东南亚国家

在菲律宾,飙升的燃油价格迫使政府重新审视能源政策,甚至重新考虑与中国的关系。

伊朗战争是否将导致能源转型脱轨?

亚洲和欧洲的国家正转向燃煤为经济供能,但分析人士认为,太阳能将成为长期赢家。

Lex专栏:未进行对冲让嘉年华集团因小失大

与竞争对手相比,嘉年华集团因未及时锁定燃料敞口而付出代价。

美国各州围绕预测市场的一场豪赌

围绕监管权的争斗,可能重塑美国联邦体制的权力格局。

美国打击伊朗花了多少钱?

据估算,自特朗普2月下旬下令美军发动打击以来的五周里,对伊行动的成本为223亿至310亿美元。
设置字号×
最小
较小
默认
较大
最大
分享×