从符号到基元：Token的技术演化史与“词元”汉化的术语学

在这里插入图片描述

引言：被遮蔽的概念原点

在2023年之前，“Token”这一术语在中文技术语境中仍处于一种语义漂泊状态。硬件工程师将其视为“令牌”，密码学家称之为“代币”，自然语言处理（NLP）研究者则交替使用“标记”“符号”或干脆保留英文原词。这种术语的混乱并非偶然——它折射出一个更深层的困境：Token本身作为一个跨越多个技术世代的概念，其内涵始终在漂移。

直至大模型浪潮席卷全球，当OpenAI的计费面板以“Token”为单位向开发者收费，当Hugging Face的文档中“tokenizer”成为最基础的组件，当无数中文开发者每日面对“上下文长度4096 tokens”的技术约束时，一个统一的、精准的、富有解释力的中文译名便不再仅仅是翻译问题，而是构建中文AI技术话语体系的基石性工作。

“词元”这一译名的最终确立，表面上是语言转换的结果，实则是一部跨越半个世纪的技术概念演化史的必然终点。本文试图追溯Token从信息论中的抽象符号，到编译器中的词法单元，再到神经网络中的语义基元，最终在中文语境中以“词元”之名完成本土化锚定的全过程。这一历程不仅是技术史的回溯，更是一次关于技术概念如何被命名、传播与内化的深度观察。

第一章前史：符号、标记与信息论中的Token雏形

1.1 从亚里士多德到香农：符号的两次理论化

若要追溯Token的概念根源，必须回到符号（symbol）与标记（sign）的哲学传统。亚里士多德在《解释篇》中提出“口语是心灵经验的符号，文字是口语的符号”，确立了符号的层级结构。但真正使“符号”具备可计算性的，是20世纪中叶信息论的诞生。

克劳德·香农在1948年的《通信的数学理论》中并未直接使用“Token”一词，但他引入的“符号”（symbol）概念已经包含了Token的核心属性：通信系统将消息编码为离散符号序列，每个符号从有限字母表中选取，接收端再将其解码。在这一框架中，符号是信息传输的最小可区分单元，其本身不携带意义，仅作为统计结构的基本粒子。

这种符号观直接影响了后续的计算语言学。当诺姆·乔姆斯基在1956年提出形式语言理论时，他将语言描述为“有限符号集上的字符串集合”，其中的“符号”（symbol）在自然语言处理的具体实现中，便演化为Token的雏形。值得注意的是，在这一时期，符号是原子性的——它不关心内部结构，只作为语法规则的操作对象。

1.2 计算机科学中的“token”：词法分析的诞生

Token在计算机科学中的第一次明确定义，出现在编译器设计中。1960年代，随着高级编程语言的出现，编译器前端需要将字符流转换为有意义的词法单元。ALGOL 60的报告中使用“token”来描述“语法上的不可再分元素”。

词法分析器（lexer）的工作，正是将源代码字符串分割为Token序列：关键字（if、while）、标识符（变量名）、字面量（数字、字符串）、运算符（+、-）等。每个Token携带类型和值两种属性——这一“类型+值”的二元结构，成为后世所有Token概念的元模型。

此时的Token具有两个核心特征：

原子性：Token是语法分析的最小单位，在语法规则中被视为整体；
分类性：Token按类型划分，不同类型对应不同的处理逻辑。

这一阶段的术语传播中，中文计算机文献普遍将token译为“单词符号”或简化为“单词”。例如，1980年代国内编译原理教材中，“词法分析程序将源程序分解为一个一个的单词符号”。这种译法虽有“词”字，但强调的是其在语法结构中的“单词”角色，尚未形成独立术语。

1.3 自然语言处理的早期探索：从词语到标记

自然语言处理（NLP）的早期发展，与编译技术有着微妙的同构关系。1950年代，机器翻译研究刚刚起步，研究者面临的首要问题同样是“如何将文本切分为可处理的单元”。不同的是，自然语言没有编程语言那样明确的词法规则。

1957年，乔治敦大学的IBM-701机器翻译系统中，首次实现了基于词典的最大匹配分词。系统中的基本处理单元被称为“word unit”——在中文语境中，这直接对应为“词语”。然而，英语单词天然由空格分隔，而汉语、日语等语言则不存在显式的词边界，这使得“词语”作为基本单元面临根本性挑战。

1970年代，布朗大学的标准语料库（Brown Corpus）采用了“标记”（tag）来标注词性，这里的“tag”与token形成功能性区分：token指文本中的具体词例（occurrence），tag指赋予该token的元数据标签。这种区分影响深远，使得“标记”一词在计算语言学中长期与token的翻译形成竞争。

第二章统计转向：Token作为概率空间的原子

2.1 语料库语言学中的“词例”

1980年代，随着语料库语言学的兴起，token获得了新的理论内涵。在语料库术语体系中，type与token的区分成为基本概念框架：

type（型）：词汇表中不同的词条，如“run”作为一个抽象词汇；
token（例）：文本中实际出现的每一个具体实例，如“He runs fast”中包含3个token。

这一区分使得token在语言学中被定义为“文本中实际出现的词例”。此时的token仍然高度依赖“词”的概念——它默认文本已被正确分词，token就是一个个的词。

然而，统计方法的深入很快暴露了“词”作为基本单元的局限。当研究者试图构建n-gram语言模型时，他们发现将“词”作为最小单元会导致严重的稀疏性问题。例如，英语中“unbelievably”一词在有限语料中可能仅出现数次，无法提供可靠的统

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/kkiron/article/details/159650917

从符号到基元：Token的技术演化史与“词元”汉化的术语学

引言：被遮蔽的概念原点

第一章前史：符号、标记与信息论中的Token雏形

1.1 从亚里士多德到香农：符号的两次理论化

1.2 计算机科学中的“token”：词法分析的诞生

1.3 自然语言处理的早期探索：从词语到标记

第二章统计转向：Token作为概率空间的原子

2.1 语料库语言学中的“词例”

评论

评论列表

微信小程序

QQ小程序

关于作者

从符号到基元：Token的技术演化史与“词元”汉化的术语学

引言：被遮蔽的概念原点

第一章 前史：符号、标记与信息论中的Token雏形

1.1 从亚里士多德到香农：符号的两次理论化

1.2 计算机科学中的“token”：词法分析的诞生

1.3 自然语言处理的早期探索：从词语到标记

第二章 统计转向：Token作为概率空间的原子

2.1 语料库语言学中的“词例”

评论

评论列表

微信小程序

QQ小程序

关于作者

第一章前史：符号、标记与信息论中的Token雏形

第二章统计转向：Token作为概率空间的原子