到底什么是 Token？搞懂 AI 的入门必修课

2026-04-21 Leave a Comment 杂文趣事

到底什么是 Token？搞懂 AI 的入门必修课

1. AI 大模型根本没法直接处理我们输入的原始文本，所有内容处理的第一步，都是先把文本转换成 Token

2. 说白了，Token 就是文本喂给模型之前，被拆分成的最小处理单元
3. 一个 Token 可以是一整个单词、单词的一部分、标点符号，甚至只是一个空格

4. 常用词通常只会被拆成 1 个 Token，而长词、生僻词往往会被拆成更小的片段，比如英文的 encoding 就会被拆成 encod+ing 两段

5. 给大家一个通用的换算参考：1 个 Token 大约对应 4 个英文字符，或是 3/4 个英文单词；不过这个数值不是固定的，会根据语种和分词器（Tokenizer）的不同发生变化

6. 完整的处理流程是这样的：先把文本分词转成 Token，再把每个 Token 映射成对应的数字 ID，接着把 ID 转换成模型能识别的向量，走完这三步，模型才会正式开始处理你的内容

7. 还有大家常听的「上下文窗口」，也是用 Token 来计量的 —— 窗口的 Token 上限，直接决定了模型单次对话能「记住」多少内容

8. 最后一点大家肯定很关心：Token 也是生成式 AI 的核心计价单位，我们平时用 AI 花的钱，全都是按 Token 的用量来结算的

上面说的还只是冰山一角，Token 背后的底层逻辑远比你想的更有意思。

猜你喜欢:

跟医生明说不要中成药，能省八成钱

吴京的微博评论区……聚众打脸现场

“共享前任” 背后，县城年轻人的婚恋困局

69 岁的成龙，尚能饭否？

再大的订单，也拉不动宁德时代的股价

楼主的智商问题比近亲结婚的后果严重多了

ChatGPT 中美差距究竟有多大

虚假繁荣的直播带货，其实就是一个骗局

0 评论

内联反馈

查看所有评论