关注

从符号到基元:Token的技术演化史与“词元”汉化的术语学

在这里插入图片描述

引言:被遮蔽的概念原点

在2023年之前,“Token”这一术语在中文技术语境中仍处于一种语义漂泊状态。硬件工程师将其视为“令牌”,密码学家称之为“代币”,自然语言处理(NLP)研究者则交替使用“标记”“符号”或干脆保留英文原词。这种术语的混乱并非偶然——它折射出一个更深层的困境:Token本身作为一个跨越多个技术世代的概念,其内涵始终在漂移。

直至大模型浪潮席卷全球,当OpenAI的计费面板以“Token”为单位向开发者收费,当Hugging Face的文档中“tokenizer”成为最基础的组件,当无数中文开发者每日面对“上下文长度4096 tokens”的技术约束时,一个统一的、精准的、富有解释力的中文译名便不再仅仅是翻译问题,而是构建中文AI技术话语体系的基石性工作。

“词元”这一译名的最终确立,表面上是语言转换的结果,实则是一部跨越半个世纪的技术概念演化史的必然终点。本文试图追溯Token从信息论中的抽象符号,到编译器中的词法单元,再到神经网络中的语义基元,最终在中文语境中以“词元”之名完成本土化锚定的全过程。这一历程不仅是技术史的回溯,更是一次关于技术概念如何被命名、传播与内化的深度观察。


第一章 前史:符号、标记与信息论中的Token雏形

1.1 从亚里士多德到香农:符号的两次理论化

若要追溯Token的概念根源,必须回到符号(symbol)与标记(sign)的哲学传统。亚里士多德在《解释篇》中提出“口语是心灵经验的符号,文字是口语的符号”,确立了符号的层级结构。但真正使“符号”具备可计算性的,是20世纪中叶信息论的诞生。

克劳德·香农在1948年的《通信的数学理论》中并未直接使用“Token”一词,但他引入的“符号”(symbol)概念已经包含了Token的核心属性:通信系统将消息编码为离散符号序列,每个符号从有限字母表中选取,接收端再将其解码。在这一框架中,符号是信息传输的最小可区分单元,其本身不携带意义,仅作为统计结构的基本粒子。

这种符号观直接影响了后续的计算语言学。当诺姆·乔姆斯基在1956年提出形式语言理论时,他将语言描述为“有限符号集上的字符串集合”,其中的“符号”(symbol)在自然语言处理的具体实现中,便演化为Token的雏形。值得注意的是,在这一时期,符号是原子性的——它不关心内部结构,只作为语法规则的操作对象。

1.2 计算机科学中的“token”:词法分析的诞生

Token在计算机科学中的第一次明确定义,出现在编译器设计中。1960年代,随着高级编程语言的出现,编译器前端需要将字符流转换为有意义的词法单元。ALGOL 60的报告中使用“token”来描述“语法上的不可再分元素”。

词法分析器(lexer)的工作,正是将源代码字符串分割为Token序列:关键字(if、while)、标识符(变量名)、字面量(数字、字符串)、运算符(+、-)等。每个Token携带类型和值两种属性——这一“类型+值”的二元结构,成为后世所有Token概念的元模型。

此时的Token具有两个核心特征:

  • 原子性:Token是语法分析的最小单位,在语法规则中被视为整体;
  • 分类性:Token按类型划分,不同类型对应不同的处理逻辑。

这一阶段的术语传播中,中文计算机文献普遍将token译为“单词符号”或简化为“单词”。例如,1980年代国内编译原理教材中,“词法分析程序将源程序分解为一个一个的单词符号”。这种译法虽有“词”字,但强调的是其在语法结构中的“单词”角色,尚未形成独立术语。

1.3 自然语言处理的早期探索:从词语到标记

自然语言处理(NLP)的早期发展,与编译技术有着微妙的同构关系。1950年代,机器翻译研究刚刚起步,研究者面临的首要问题同样是“如何将文本切分为可处理的单元”。不同的是,自然语言没有编程语言那样明确的词法规则。

1957年,乔治敦大学的IBM-701机器翻译系统中,首次实现了基于词典的最大匹配分词。系统中的基本处理单元被称为“word unit”——在中文语境中,这直接对应为“词语”。然而,英语单词天然由空格分隔,而汉语、日语等语言则不存在显式的词边界,这使得“词语”作为基本单元面临根本性挑战。

1970年代,布朗大学的标准语料库(Brown Corpus)采用了“标记”(tag)来标注词性,这里的“tag”与token形成功能性区分:token指文本中的具体词例(occurrence),tag指赋予该token的元数据标签。这种区分影响深远,使得“标记”一词在计算语言学中长期与token的翻译形成竞争。


第二章 统计转向:Token作为概率空间的原子

2.1 语料库语言学中的“词例”

1980年代,随着语料库语言学的兴起,token获得了新的理论内涵。在语料库术语体系中,type与token的区分成为基本概念框架:

  • type(型):词汇表中不同的词条,如“run”作为一个抽象词汇;
  • token(例):文本中实际出现的每一个具体实例,如“He runs fast”中包含3个token。

这一区分使得token在语言学中被定义为“文本中实际出现的词例”。此时的token仍然高度依赖“词”的概念——它默认文本已被正确分词,token就是一个个的词。

然而,统计方法的深入很快暴露了“词”作为基本单元的局限。当研究者试图构建n-gram语言模型时,他们发现将“词”作为最小单元会导致严重的稀疏性问题。例如,英语中“unbelievably”一词在有限语料中可能仅出现数次,无法提供可靠的统

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/kkiron/article/details/159650917

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--