文章目录
- 课程
- 实操
课程
评测的意义是什么呢?我最近也在想。看到这节开头的内容后忽然有个顿悟:如果大模型最终也会变成一种基础工具(类比软件),稳定或可预期的效果需要先于用户感知构建出来,评测 case 就需要变成用例的相对充分抽样。
除了提高效率本身,最近还有一个很好的工作 MixEval,把标准、静态的 benchmarks 跟 elo 表现做了充分关联,使得只测试少量样本就能得到近似 lmsys arena 的打分,也非常厉害。
对了 Opencompass 也开了 arena,感兴趣可以去打打分和体验一些最新模型的效果。
实操
如果有人跟我一样,运行评测命令行时总是提示包没安装,那文档可能写的有问题,pip install -r requirements.txt
是必须的。
评测完毕。