一、缘起
1.1 问题的发现
AI模型在处理数值比较问题时,出现了一个有趣的现象:当被问到“9.9”和“9.11”哪个更大时,一些AI模型给出了错误的答案,认为“9.9”大于“9.11”。这一问题最初是由 Riley Goodside 发现的,他是一位在人工智能领域特别是大型语言模型(LLMs)提示工程方面的专家。他被认为是世界上第一位“提示工程师”(Prompt Engineer),目前就职于Scale AI。他之前在OkCupid、Grindr和CopyAI等公司担任数据科学家,从事推荐系统、数据建模等机器学习工作。
可以看到二百多万的查看量,其实到今天 GPT 回复的还是错的
那么 这个问题在社交媒体和论坛上引起了广泛讨论也是必然。主要还是因为国内外的 AI 模型纷纷翻车,都存在同样的问题。这表明,AI模型本身在处理数值比较时存在普遍性问题,需要通过改进和增强模型来解决。
1.2 影响面
这一问题的影响面并不限于简单的数值比较,它反映了AI模型在处理数值数据时可能存在的潜在错误。数值比较是日常生活中常见的操作,特别是在金融、科学计算等领域,错误的数值比较可能会导致严重的后果。
这类问题时出现错误,也反映了AI与人类认知的本质差异。人类在处理这类常识性问题时,通常能够迅速且准确地得出答案,因为人类具备基本的常识和逻辑推理能力。然而,AI模型并不具备这种常识性认知,它们只是根据训练数据和模型架构,从知识库中判断出最可能的结果。
根据一项非正式调查,约有30%的AI模型在处理“9.9”和“9.11”的比较时出现了错误。这一比例虽然不高,但足以引起警惕。特别是在一些依赖AI进行决策的系统中,这样的错误可能会被放大,导致更大的问题。
二 、缘因
2.1 本质原因
AI模型在处理数值比较时出现错误,主要有以下几个原因:
2.1.1 小数点后的位数处理
在数值表示中,小数点后的位数通常用于表示数值的精度。例如,保留小数点后三位意味着数值的精度为千分之一。这种表示方法在科学计算、工程设计、金融交易等领域中非常常见。
国际单位制(SI)中,许多物理量的测量精度要求保留到小数点后几位。例如,长度单位“米”的测量精度通常要求保留到小数点后三位。
国际财务报告准则(IFRS)和美国通用会计准则(GAAP)都规定了财务报表中金额的表示方法,通常要求保留到小数点后两位。
也就是 9.9 会变成 9.90 或 9.900。
那么 9.90 与 9.11 对比就很明显了,如果还不明显可以分别加 0.1
这样 10.00 与 9.21 大于就很明了:9.9 大于 9.11
那么有哪些情况下 9.9 会小于 9.11 呢?
1. 日期表示
在日期表示方式中,9.9 和 9.11 可能被视为日期的一部分。例如,在日期格式中,日期表示为“月.日”,即“9.9”表示9月9日,“9.11”表示9月11日。在这种情况下,9.9 显然比 9.11 小。
2. 版本号
在软件版本号中,9.9 和 9.11 会被视为版本号的一部分。版本号通常按照字典序进行比较,即从左到右逐位比较。在这种情况下,9.9 会被认为比 9.11 小,因为“9”小于“11”。
例如,软件版本号“1.9.9”和“1.9.11”,在字典序比较中,“1.9.9”会被认为比“1.9.11”小。
2.1.2 分词器(Tokenizer)的影响
我们知道 AI 大模型的核心技术就是Transformer模型。这一模型最初由谷歌在2017年在论文《Attention is All You Need》中提出。
所以 AI模型在处理输入时,通常会将文本转换为tokens。对于“9.9”和“9.11”,分词器可能会将其分别 tokenize 为不同的tokens。
from transformers import AutoTokenizer# 加载预训练的分词器
tokenizer = AutoTokenizer.from_pretrained("Llama-3.2-1B")# 定义要转换的字符串
text1 = "9.9"
text2 = "9.11"# 将字符串转换为tokens
tokens1 = tokenizer.tokenize(text1)
tokens2 = tokenizer.tokenize(text2)# 将tokens转换为token IDs
token_ids1 = tokenizer.convert_tokens_to_ids(tokens1)
token_ids2 = tokenizer.convert_tokens_to_ids(tokens2)# 输出结果
print(f"字符串 '{text1}' 转换后的tokens: {tokens1}")
print(f"字符串 '{text1}' 转换后的token IDs: {token_ids1}")
print(f"字符串 '{text2}' 转换后的tokens: {tokens2}")
print(f"字符串 '{text2}' 转换后的token IDs: {token_ids2}")# 比较token IDs
if token_ids1 < token_ids2:print(f"根据token IDs比较,'{text1}' 小于 '{text2}'")
elif token_ids1 > token_ids2:print(f"根据token IDs比较,'{text1}' 大于 '{text2}'")
else:print(f"根据token IDs比较,'{text1}' 等于 '{text2}'")
这里是使用Llama-3.2-1B 模型,显然在这个模型下 9.11>9.9
而 Qwen2-0.5B模型,又是 9.11<9.9
2.2 解决方案
2.2.1 改进分词器
为了改善这一问题,可以考虑改进分词器,使其能够更好地处理小数。例如,将“9.9”和“9.11”视为单个tokens,而不是将其分解为多个tokens。这样,模型可以更好地理解小数的含义,并进行正确的比较。
2.2.2 增加训练数据
增加小数比较的训练数据,特别是那些包含多位小数的例子。这可以帮助模型更好地理解小数的含义,并提高其在小数比较任务上的表现。
2.2.3 引入数值处理模块
在模型中引入专门处理数值的模块,例如将输入的文本转换为数值,再进行比较。这可以确保模型在处理数值比较时,能够正确地理解数值的大小关系,而不是简单地按照字符串进行比较。
三、缘结
实战使用 transformers 训练 llama-3.2-1B 模型
在这里我们将使用 Hugging Face 的 transformers 库,训练一个 llama-3.2-1B 模型,使其能够正确回答“9.9”和“9.11”哪个更大的问题。
3.1 环境准备
首先,确保已经安装了 transformers 和 PyTorch 库。如果没有安装,可以使用以下命令进行安装:
pip install transformers torch
3.2 数据准备
我们准备一个简单的数据集,包含“9.9”和“9.11”的比较问题及其正确答案。
train_data = [{"prompt": "哪个更大,9.9 还是 9.11?", "response": "9.11 比 9.9 大。"},{"prompt": "比较一下 9.9 和 9.11,哪个更大?", "response": "9.11 大于 9.9。"},{"prompt": "9.9 和 9.11 哪个更大?", "response": "9.11 比 9.9 更大。"},# 可以添加更多类似的例子
]
如果样本数据不够,可以让 AI 帮我们生成
9.9 与9.11哪个大的问题,我准备微调自己的模型,AI样本数据太少了,请按照以下格式生成100条
[
{"prompt": "哪个更大,9.9 还是 9.11?", "response": "9.11 比 9.9 大。"},
{"prompt": "比较一下 9.9 和 9.11,哪个更大?", "response": "9.11 大于 9.9。"},
{"prompt": "9.9 和 9.11 哪个更大?", "response": "9.11 比 9.9 更大。"},
]
当然你也可以让 AI 给我们生成个程序,自动生成
import jsondef generate_sample_data(num_samples):samples = []for _ in range(num_samples):prompt = "哪个更大,9.9 还是 9.11?"response = "9.11 比 9.9 大。"samples.append({"prompt": prompt, "response": response})return samplesdef save_samples_to_file(samples, filename):with open(filename, 'w', encoding='utf-8') as f:json.dump(samples, f, ensure_ascii=False, indent=4)if __name__ == "__main__":num_samples = 100samples = generate_sample_data(num_samples)save_samples_to_file(samples, "sample_data.json")print(f"Generated {num_samples} samples and saved to sample_data.json")
3.3 模型加载
加载预训练的 llama-3.2-1B 模型和对应的 tokenizer。
from transformers import AutoTokenizer, AutoModelForCausalLMmodel_name = "llama-3.2-1b" # 请替换为实际的模型名称
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
3.4 数据处理
将训练数据转换为模型可以接受的格式。
def prepare_dataset(data, tokenizer):inputs = [example["prompt"] + tokenizer.eos_token + example["response"] for example in data]encodings = tokenizer(inputs, truncation=True, padding='longest', max_length=128)return encodingstrain_encodings = prepare_dataset(train_data, tokenizer)
3.5 模型训练
定义训练参数并开始训练。
# 导入必要的库
from transformers import Trainer, TrainingArguments# 定义训练参数
training_args = TrainingArguments(# 输出目录,用于保存训练过程中的模型和日志output_dir="./llama-3.2-1B",# 训练的总轮数(epochs)num_train_epochs=3,# 每个设备(如GPU)上的训练批次大小per_device_train_batch_size=2,# 每隔多少步保存一次模型save_steps=1000,# 最多保存多少个模型文件,超过此数量时会删除旧的模型文件save_total_limit=2,
)# 初始化Trainer对象
trainer = Trainer(# 要训练的模型model=model,# 训练参数args=training_args,# 训练数据集train_dataset=train_encodings,
)# 开始训练模型
trainer.train()
3.6 模型评估
训练完成后,我们可以测试一下模型是否能够正确回答“9.9”和“9.11”哪个更大的问题。
def generate_response(prompt, tokenizer, model):input_ids = tokenizer.encode(prompt + tokenizer.eos_token, return_tensors="pt")outputs = model.generate(input_ids, max_length=50, do_sample=True, temperature=0.7)response = tokenizer.decode(outputs[0], skip_special_tokens=True).split(tokenizer.eos_token)[1].strip()return responseprompt = "哪个更大,9.9 还是 9.11?"
response = generate_response(prompt, tokenizer, model)
print(f"问题:{prompt}")
print(f"回答:{response}")
3.7 结果
经过训练,模型能够正确回答“9.9”和“9.11”哪个更大的问题。如果模型仍然给出错误的答案,可能需要进一步调整训练的总轮数(num_train_epochs)和增加训练的数据集。前几次基本都没效果,后面我把num_train_epochs 设置为 100 轮,然后成功了,不过代价还是有的先是 CPU 拉满 、然后再是拉满GPU、最后是硬盘 IO 拉满。
我是栈江湖,如果你喜欢此文章,不要忘记点赞+关注!