Embedding和分词器

半兽人 发表于: 2025-03-25 最后更新时间: 2025-05-16 11:55:08

{{totalSubscript}} 订阅， 555 游览

Embedding 不是分词器（Tokenizer），但它们经常配合使用。

1. 分词器（Tokenizer）和 Embedding 的区别

概念	作用	示例
分词器（Tokenizer）	把文本拆成单词、子词或字符	`"今天的天气很好"` → `["今天", "的", "天气", "很好"]`
Embedding（嵌入模型）	把文本转换成向量，让计算机能理解	`["今天", "的", "天气", "很好"]` → `[[0.1, 0.2, ...], [0.3, 0.4, ...], ...]`

2. 关系：分词器是 Embedding 的前处理步骤

Embedding 需要输入数字化的数据，但文本是字符串，计算机无法直接处理。
所以，分词器先把文本拆开，变成单词或子词，然后 Embedding 把它们转换成向量。

示例：BERT 模型

原始文本：
```
"今天的天气很好"
```

分词器（Tokenizer）拆分：

["今天", "的", "天气", "很", "好"]

转换为 ID（词典索引）：
```
[1023, 15, 785, 230, 99]
```

Embedding 转换为向量：

[[0.12, 0.98, -0.5, ...], [0.3, 0.1, 0.8, ...], ...]

3. 真实案例：Transformer（BERT / GPT）工作流程

步骤 1：分词器 (Tokenizer)
句子 → 词汇 ID
步骤 2：Embedding
词汇 ID → 词向量（高维空间表示）
步骤 3：Transformer 计算
输入到 Transformer 模型（BERT、GPT），进行深度学习计算

4. 结论

分词器（Tokenizer） = 处理文本，拆成单词或子词
Embedding = 把单词转换成向量，让计算机能理解
分词器 + Embedding 结合，才能让 AI 理解语言

更新于 2025-05-16

半兽人

在线，9小时前登录

查看LLM更多相关的文章或提一个关于LLM的问题，也可以与我们一起分享文章。