【NLP 59、大模型应用 —— 字节对编码 bpe 算法】

目录

一、词表的构造问题

二、bpe(byte pair encoding) 压缩算法

算法步骤

示例：

步骤 1：初始化符号表和频率统计

步骤 2：统计相邻符号对的频率

步骤 3：合并最高频的符号对

步骤 4：重复合并直至终止条件

三、bpe在NLP中的使用示例

1.第一步

2.第二步

3.第三步

四、tiktoken 分词工具

1.可视化网站

2.分词工具解码序列

五、大语言模型处理中文时是分字还是分词？

六、bbpe(Byte-Level Byte Pair Encoding)

你和生生不息的河流，生动了我人生中的美好瞬间

—— 25.4.11

一、词表的构造问题

为了nlp模型训练，词表（字表）是必要的

统计训练语料中的所有字符（或词）是一种做法，但是容易出现一些问题：

1）测试数据中出现训练数据中没有的词

2）词表过大

3）对于不同语种，切分粒度不好确认（字 or 词）

二、bpe(byte pair encoding) 压缩算法

BPE 最初是一种数据压缩算法，通过迭代合并数据中最频繁出现的字节对（Byte Pair），逐步构建一个编码表，将高频字节对替换为一个新的符号，从而减少数据中的重复模式，达到压缩目的。其核心逻辑是：通过统计数据中相邻符号的频率，不断合并高频符号对，生成更复杂的新符号，最终将原始数据转换为符号序列，减少数据冗余。

算法步骤

假设输入数据为字符串，初始符号为单个字符（或字节）

Suppose the data to be encoded is：

aaabdaaabac

The byte pair "aa" occurs most often, so it will be replaced by a byte that is not used in the data, such as "Z". Now there is the following data and replacement table：

ZabdZabac
Z=aa

Then the process is repeated with byte pair 'ab", replacing it with "Y" ：

ZYdZYac
Z=aa
Y=ab

The only literal byte pair left occurs only once, and the encoding might stop here. Alternatively, the process could continue with recursive byte pair encoding, replacing "ZY" with "X"：

XdXac
Z=aa
Y=ab
X=ZY

示例：

步骤 1：初始化符号表和频率统计

将输入数据拆分为最小单元（如单个字符或字节），初始符号表为所有唯一字符的集合。

例如：

输入数据为 {"low", "lower", "newer", "widest"}，

初始符号为 {"l", "o", "w", "e", "r", "n", "w", "i", "d", "s", "t"}。

步骤 2：统计相邻符号对的频率

遍历数据，统计所有相邻符号对（Bigram）的出现次数。

例如：

"lo" 出现 2 次（"low" 和 "lower"），

"ow" 出现 1 次（"low"），

"er" 出现 2 次（"lower" 和 "newer"），

其他符号对频率依次统计。

步骤 3：合并最高频的符号对

选择频率最高的符号对，将其作为新符号加入符号表，并在数据中替换所有该符号对为新符号。

例如：

若 "er" 是最高频对（频率 2），合并后新符号为 "er"，

数据转换为 {"l ow", "l o er", "n ew er", "w i d e s t"}（注意空格表示符号间隔）。

步骤 4：重复合并直至终止条件

重复步骤 2-3，直到达到预设的合并次数（如生成 1000 个符号）或无法继续合并（所有符号对频率为 1）。

例如：

最终符号表包含原始字符和合并生成的新符号（如 "lo", "er", "new" 等），数据被转换为符号序列。

三、bpe在NLP中的使用示例

1.第一步

Ⅰ、假设语料内容如下：

he had a cat

the cat is sitting on the mat

Ⅱ、统计字符集合：

['a', 'c', 'd', 'e', 'g', 'h', 'i', 'm', 'n', 'o', 's', 't']

Ⅲ、统计相邻字符同时出现的次数（字符中如有空格不算相邻）

he：3 (he, the*2)

ha：1 (had)

ad：1 (had)

ca：2 (cat*2)

at：3 (cat*2, mat)

th：2

is：1

si：1

it：1

ti：1

in：1

ng：1

on：1

ma：1

Ⅳ、最高频的组合被视为一个新的字符，新的字符集合：

['a', 'c', 'd', 'e', 'g', 'h', 'i', 'm', 'n', 'o', 's', 't', 'X', 'Y']，X = he，Y = at

2.第二步

Ⅰ、假设语料内容如下：

he had a cat

the cat is sitting on the mat

Ⅱ、新词表：

['a', 'c', 'd', 'e', 'g', 'h', 'i', 'm', 'n', 'o', 's', 't', 'X', 'Y']，X = he，Y = at

Ⅲ、统计相邻字符同时出现的次数（字符中如有空格不算相邻）

tX(t'he')：2(the * 2)

ha：1(had)

ad：1(had)

cY(c'at')：2(cat * 2)

is：1

si：1

it：1

ti：1

in：1

ng：1

on：1

mY(m'at')：1

Ⅳ、最高频的组合被视为一个新的字符，新的字符集合：

['a', 'c', 'd', 'e', 'g', 'h', 'i', 'm', 'n', 'o', 's', 't', 'X', 'Y', 'Z', 'M' ]，Z = tX（t'he'），M = ha

3.第三步

依次循环，重复合并直至终止条件

四、tiktoken 分词工具

1.可视化网站

tokenization 可视化网站：https://www.aitokenizer.xyz/

2.分词工具解码序列

import tiktokenencoding = tiktoken.get_encoding("cl100k_base")
print(encoding.encode("一切都会好的，我一直相信"))

五、大语言模型处理中文时是分字还是分词？

答：既不是分字，也不是分词，是介于字与词之间的一种东西，我们称之为 token，大语言模型可以把一个字切分为多个token，也可能把多个字当成一个token，这些token本质上是由训练数据通过统计算法得到

六、bbpe(Byte-Level Byte Pair Encoding)

BBPE（Byte-Level Byte Pair Encoding，字节级字节对编码）是一种分词算法，是BPE（Byte Pair Encoding）的进阶版本。它通过将文本分解为字节序列，并在字节级别合并高频连续字节对来构建词表，从而解决了BPE在多语言和特殊字符处理中的局限性。

通过bpe算法，就可以在同一段文本中将不同语种的句子粘合在一起；而数字问题用bpe思想做时，就会导致一定数学计算的问题

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/77086.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！