
引言:被遮蔽的概念原点
在2023年之前,“Token”这一术语在中文技术语境中仍处于一种语义漂泊状态。硬件工程师将其视为“令牌”,密码学家称之为“代币”,自然语言处理(NLP)研究者则交替使用“标记”“符号”或干脆保留英文原词。这种术语的混乱并非偶然——它折射出一个更深层的困境:Token本身作为一个跨越多个技术世代的概念,其内涵始终在漂移。
直至大模型浪潮席卷全球,当OpenAI的计费面板以“Token”为单位向开发者收费,当Hugging Face的文档中“tokenizer”成为最基础的组件,当无数中文开发者每日面对“上下文长度4096 tokens”的技术约束时,一个统一的、精准的、富有解释力的中文译名便不再仅仅是翻译问题,而是构建中文AI技术话语体系的基石性工作。
“词元”这一译名的最终确立,表面上是语言转换的结果,实则是一部跨越半个世纪的技术概念演化史的必然终点。本文试图追溯Token从信息论中的抽象符号,到编译器中的词法单元,再到神经网络中的语义基元,最终在中文语境中以“词元”之名完成本土化锚定的全过程。这一历程不仅是技术史的回溯,更是一次关于技术概念如何被命名、传播与内化的深度观察。
第一章 前史:符号、标记与信息论中的Token雏形
1.1 从亚里士多德到香农:符号的两次理论化
若要追溯Token的概念根源,必须回到符号(symbol)与标记(sign)的哲学传统。亚里士多德在《解释篇》中提出“口语是心灵经验的符号,文字是口语的符号”,确立了符号的层级结构。但真正使“符号”具备可计算性的,是20世纪中叶信息论的诞生。
克劳德·香农在1948年的《通信的数学理论》中并未直接使用“Token”一词,但他引入的“符号”(symbol)概念已经包含了Token的核心属性:通信系统将消息编码为离散符号序列,每个符号从有限字母表中选取,接收端再将其解码。在这一框架中,符号是信息传输的最小可区分单元,其本身不携带意义,仅作为统计结构的基本粒子。
这种符号观直接影响了后续的计算语言学。当诺姆·乔姆斯基在1956年提出形式语言理论时,他将语言描述为“有限符号集上的字符串集合”,其中的“符号”(symbol)在自然语言处理的具体实现中,便演化为Token的雏形。值得注意的是,在这一时期,符号是原子性的——它不关心内部结构,只作为语法规则的操作对象。
1.2 计算机科学中的“token”:词法分析的诞生
Token在计算机科学中的第一次明确定义,出现在编译器设计中。1960年代,随着高级编程语言的出现,编译器前端需要将字符流转换为有意义的词法单元。ALGOL 60的报告中使用“token”来描述“语法上的不可再分元素”。
词法分析器(lexer)的工作,正是将源代码字符串分割为Token序列:关键字(if、while)、标识符(变量名)、字面量(数字、字符串)、运算符(+、-)等。每个Token携带类型和值两种属性——这一“类型+值”的二元结构,成为后世所有Token概念的元模型。
此时的Token具有两个核心特征:
- 原子性:Token是语法分析的最小单位,在语法规则中被视为整体;
- 分类性:Token按类型划分,不同类型对应不同的处理逻辑。
这一阶段的术语传播中,中文计算机文献普遍将token译为“单词符号”或简化为“单词”。例如,1980年代国内编译原理教材中,“词法分析程序将源程序分解为一个一个的单词符号”。这种译法虽有“词”字,但强调的是其在语法结构中的“单词”角色,尚未形成独立术语。
1.3 自然语言处理的早期探索:从词语到标记
自然语言处理(NLP)的早期发展,与编译技术有着微妙的同构关系。1950年代,机器翻译研究刚刚起步,研究者面临的首要问题同样是“如何将文本切分为可处理的单元”。不同的是,自然语言没有编程语言那样明确的词法规则。
1957年,乔治敦大学的IBM-701机器翻译系统中,首次实现了基于词典的最大匹配分词。系统中的基本处理单元被称为“word unit”——在中文语境中,这直接对应为“词语”。然而,英语单词天然由空格分隔,而汉语、日语等语言则不存在显式的词边界,这使得“词语”作为基本单元面临根本性挑战。
1970年代,布朗大学的标准语料库(Brown Corpus)采用了“标记”(tag)来标注词性,这里的“tag”与token形成功能性区分:token指文本中的具体词例(occurrence),tag指赋予该token的元数据标签。这种区分影响深远,使得“标记”一词在计算语言学中长期与token的翻译形成竞争。
第二章 统计转向:Token作为概率空间的原子
2.1 语料库语言学中的“词例”
1980年代,随着语料库语言学的兴起,token获得了新的理论内涵。在语料库术语体系中,type与token的区分成为基本概念框架:
- type(型):词汇表中不同的词条,如“run”作为一个抽象词汇;
- token(例):文本中实际出现的每一个具体实例,如“He runs fast”中包含3个token。
这一区分使得token在语言学中被定义为“文本中实际出现的词例”。此时的token仍然高度依赖“词”的概念——它默认文本已被正确分词,token就是一个个的词。
然而,统计方法的深入很快暴露了“词”作为基本单元的局限。当研究者试图构建n-gram语言模型时,他们发现将“词”作为最小单元会导致严重的稀疏性问题。例如,英语中“unbelievably”一词在有限语料中可能仅出现数次,无法提供可靠的统
转载自CSDN-专业IT技术社区



