《OpenCompass 大模型评测》
文档:OpenCompass大模型评测教程
1、主观评测
2、提示词工程
李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?
李华每周给2个不同的朋友写一封3页的信, 一周写两次。他一年总共写了多少页的信。
问题:李华每周给2个不同的朋友写一封3页的信,一 周写两次。他一年总共写了多少页的信?答案:
问题:李华每周给2个不同的朋友写一封3页的信,一周写两次。 他一年总共写了多少页的信?请你一步一步思考。答案:
这是一道数学题,请在“答案”后给出你的回答:李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?请你一步一步思考。答案:
3、主流大模型评测框架
4、大模型评测练习
在InternStudio平台中选择A100 (1/4) * 2
的配置,镜像选择 Cuda11.7-conda
;
4.1 激活虚拟环境
conda activate opencompass
4.2 Clone项目代码
git clone https://gitee.com/open-compass/opencompass
4.3 数据集验证
cd opencompass && python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug
4.4 Troubleshooting
(1)评测结果的分数表格中,出现很多数据集没有结果,而且比文档中无结果的数据集条目多很多
“刚开始我们是直接用的之前的机器配置,也就是 A100 (1/4),显存是20G”。
于是就出现了一个问题如图所示:
可以看到ceval-plant_protection
、ceval-basic_medicine
和ceval-clinical medicine
等数据集都没有评测分数,甚至连后面的metric
类型都没有显示出来,而文档中即使没有显示分数的条目也都会显示metric
类型,所以我们感觉有点问题;
经过查询资料得知:
“出现许多数据集无评分一般OOM了”。
再次比对视频教程,发现需要使用40G的显存配置;
修改之后,就跟文档中的结果完全一样了: