书生大模型实战营--L1关卡-OpenCompass 评测 InternLM-1.8B 实践

一、使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 MMLU 数据集上的性能

1、使用lmdeploy部署 internlm2-chat-1.8b模型

2、根据OpenCompass官网教程安装并下载数据集

opencompass/README_zh-CN.md at main · open-compass/opencompass · GitHub

注意:

pyhton3.11 安装pyext时报错

解决方法:

[Python]AttributeError: module ‘inspect‘ has no attribute ‘getargspec‘. Did you mean: ‘getargs‘解决方法_attributeerror: module 'inspect' has no attribute -CSDN博客x

下载源码:

pyext · PyPI

修改内容:

pyext-0.7/pyext.py

然后执行python setup install 进行安装

3、再里面的 opencompass/configs/eval_internlm_chat_lmdeploy_apiserver.py增加1.8b调用地址

注意:评测mmlu的时候注释掉其他数据集

4、运行评测脚本---使用API调用

python run.py configs/eval_internlm_chat_lmdeploy_apiserver.py -w outputs/turbomind/internlm-1-8b --datasets mmlu_ppl

评测结果:

dataset                                            version    metric    mode      internlm2-chat-1_8b
-------------------------------------------------  ---------  --------  ------  ---------------------
lukaemon_mmlu_college_biology                      8c2e29     accuracy  gen                     46.53
lukaemon_mmlu_college_chemistry                    0afccd     accuracy  gen                     41.00
lukaemon_mmlu_college_computer_science             c1c1b4     accuracy  gen                     41.00
lukaemon_mmlu_college_mathematics                  9deed0     accuracy  gen                     33.00
lukaemon_mmlu_college_physics                      f5cf5e     accuracy  gen                     36.27
lukaemon_mmlu_electrical_engineering               3d694d     accuracy  gen                     40.00
lukaemon_mmlu_astronomy                            7ef16f     accuracy  gen                     48.03
lukaemon_mmlu_anatomy                              2d597d     accuracy  gen                     41.48
lukaemon_mmlu_abstract_algebra                     ec092c     accuracy  gen                     33.00
lukaemon_mmlu_machine_learning                     d489ae     accuracy  gen                     27.68
lukaemon_mmlu_clinical_knowledge                   af10df     accuracy  gen                     52.83
lukaemon_mmlu_global_facts                         cad9e0     accuracy  gen                     24.00
lukaemon_mmlu_management                           65f310     accuracy  gen                     68.93
lukaemon_mmlu_nutrition                            80bf96     accuracy  gen                     50.65
lukaemon_mmlu_marketing                            9a98c0     accuracy  gen                     68.38
lukaemon_mmlu_professional_accounting              9cc7e2     accuracy  gen                     28.01
lukaemon_mmlu_high_school_geography                c28a4c     accuracy  gen                     56.57
lukaemon_mmlu_international_law                    408d4e     accuracy  gen                     56.20
lukaemon_mmlu_moral_scenarios                      9f30a6     accuracy  gen                     25.70
lukaemon_mmlu_computer_security                    2753c1     accuracy  gen                     55.00
lukaemon_mmlu_high_school_microeconomics           af9eae     accuracy  gen                     52.52
lukaemon_mmlu_professional_law                     7c7a62     accuracy  gen                     34.49
lukaemon_mmlu_medical_genetics                     b1a3a7     accuracy  gen                     56.00
lukaemon_mmlu_professional_psychology              c6b790     accuracy  gen                     42.32
lukaemon_mmlu_jurisprudence                        f41074     accuracy  gen                     53.70
lukaemon_mmlu_world_religions                      d44a95     accuracy  gen                     61.40
lukaemon_mmlu_philosophy                           d36ef3     accuracy  gen                     47.91
lukaemon_mmlu_virology                             0a5f8e     accuracy  gen                     38.55
lukaemon_mmlu_high_school_chemistry                5b2ef9     accuracy  gen                     42.36
lukaemon_mmlu_public_relations                     4c7898     accuracy  gen                     51.82
lukaemon_mmlu_high_school_macroeconomics           3f841b     accuracy  gen                     47.95
lukaemon_mmlu_human_sexuality                      4d1f3e     accuracy  gen                     51.15
lukaemon_mmlu_elementary_mathematics               0f5d3a     accuracy  gen                     32.54
lukaemon_mmlu_high_school_physics                  0dd929     accuracy  gen                     31.79
lukaemon_mmlu_high_school_computer_science         bf31fd     accuracy  gen                     41.00
lukaemon_mmlu_high_school_european_history         d1b67e     accuracy  gen                     59.39
lukaemon_mmlu_business_ethics                      af53f3     accuracy  gen                     47.00
lukaemon_mmlu_moral_disputes                       48239e     accuracy  gen                     45.95
lukaemon_mmlu_high_school_statistics               47e18e     accuracy  gen                     48.61
lukaemon_mmlu_miscellaneous                        573569     accuracy  gen                     57.47
lukaemon_mmlu_formal_logic                         7a0414     accuracy  gen                     31.75
lukaemon_mmlu_high_school_government_and_politics  d907eb     accuracy  gen                     61.66
lukaemon_mmlu_prehistory                           65aa94     accuracy  gen                     50.00
lukaemon_mmlu_security_studies                     9ea7d3     accuracy  gen                     53.06
lukaemon_mmlu_high_school_biology                  775183     accuracy  gen                     55.48
lukaemon_mmlu_logical_fallacies                    19746a     accuracy  gen                     53.99
lukaemon_mmlu_high_school_world_history            6665dc     accuracy  gen                     67.09
lukaemon_mmlu_professional_medicine                a05bab     accuracy  gen                     41.54
lukaemon_mmlu_high_school_mathematics              0e6a7e     accuracy  gen                     28.52
lukaemon_mmlu_college_medicine                     5215f1     accuracy  gen                     46.82
lukaemon_mmlu_high_school_us_history               b5f235     accuracy  gen                     54.41
lukaemon_mmlu_sociology                            4980ec     accuracy  gen                     60.70
lukaemon_mmlu_econometrics                         4d590b     accuracy  gen                     29.82
lukaemon_mmlu_high_school_psychology               440e96     accuracy  gen                     65.50
lukaemon_mmlu_human_aging                          d0a8e1     accuracy  gen                     47.98
lukaemon_mmlu_us_foreign_policy                    adcc88     accuracy  gen                     72.00
lukaemon_mmlu_conceptual_physics                   a111d3     accuracy  gen                     34.04

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVAWeb实战(前端篇)

项目实战一 0.项目结构 1.创建vue3项目,并导入所需的依赖 npm install vue-router npm install axios npm install pinia npm install vue 2.定义路由,axios,pinia相关的对象 文件(.js) 2.1路由(.js) import {cre…

当全球银行系统“崩溃”时会发生什么?

有句名言:“当美国打喷嚏时,世界就会感冒……”换句话说,当人们对美国及其经济稳定性的信心下降时,其他经济体(以及黄金、白银和股票等资产)的价值往往会下降。 与任何其他资产类别一样,加密货…

超详细-数据结构-二叉树概念及结构,堆的概念及结构以及堆的代码的c语言实现

本篇博客将详细讲述二叉树的概念,堆的概念及结构以及堆的代码实现,以及二叉树,堆的相关应用。Top K 问题,堆排序的实现以及二叉树链式结构的实现将在之后的博客更新。你可在目录中找到你想重点阅读的内容。堆的完整代码实现在文章…

如何撤销/回滚远程修改

1. git revert 通过git revert commit_id,撤销指定commit,然后push到远程分支,即可撤销指定commit的修改,并新增一个revert的提交记录。 2. 撤销HEAD的修改并删除提交记录 git reset --hard HEAD^ # 撤销最近一次的修改 git pu…

【秋招笔试题】方程

解析&#xff1a;暴力枚举。建议用Python的eval函数,C手写略麻烦。 #include <iostream> #include <string> #include <vector> #include <sstream>using namespace std;long long stringResult(const string &expr) {vector<string> plusP…

文字改视频技术——Rerender A Video

Rerender A Video 的实现技术结合了深度学习、计算机视觉、图像处理、GPU 加速和云计算等多种先进技术&#xff0c;旨在提供高效、优质的视频渲染和增强功能。以下是详细说明&#xff0c;特别突出风格迁移技术的解释。 一、Rerender A Video 介绍 Rerender A Video 利用深度学…

visual studio性能探测器使用案列

visual studio性能探测器使用案列 在visual studio中&#xff0c;我们可以使用自带的工具对项目进行性能探测&#xff0c;具体如下 1.选择性能探查器 Vs2022/Vs2019中打开方式&#xff1a; Vs2017打开方式&#xff1a; 注意最好将解决方案配置为&#xff1a;Release Debu…

昇思25天学习打卡营第22天|CycleGAN图像风格迁移互换

相关知识 CycleGAN 循环生成网络&#xff0c;实现了在没有配对示例的情况下将图像从源域X转换到目标域Y的方法&#xff0c;应用于域迁移&#xff0c;也就是图像风格迁移。上章介绍了可以完成图像翻译任务的Pix2Pix&#xff0c;但是Pix2Pix的数据必须是成对的。CycleGAN中只需…

如何获得某个Window画面所属包名packageName和用户userId

在安卓上获得某个Window画面所属包名packageName和用户userId的方法 1&#xff0c;用到的工具如下&#xff1a; adb androidSDK里的monitor工具 adb shell dumpsys window animator adb shell dumpsys window命令 jdk 1.8已在安卓14模拟器上测试通过。 以AOSP的launcher中的m…

【.NET 6 实战--孢子记账--从单体到微服务】--开发环境设置

在这一小节&#xff0c;我们将设置开发环境。 一、安装SDK 咱们的项目使用的是 .NET6&#xff0c;开发前我们需要从官网上下载.NET6 SDK&#xff08;点击下载&#xff09;&#xff0c;这里要注意的是我们需要下载.NET6 SDK&#xff0c;而不是 .NET6 Runtiem 。SDK 包含 Runti…

C++静态成员变量和静态成员函数

演示代码如下&#xff1a; #include<iostream> using namespace std;class Person { public://静态成员函数 所有对象共享一个函数&#xff0c;且只能调用静态成员变量 ******static void func(){m_A 300;cout << "静态成员函数调用" << endl;}/…

【MySQL进阶之路 | 高级篇】简述Bin Log日志

1. 日志类型 MySQL有不同类型的日志文件&#xff0c;用来存储不同类型的日志&#xff0c;分为二进制日志、错误日志、通用查询日志和慢查询日志&#xff0c;这也是常用的4种。MySQL 8又新增两种支持的日志:中继日志和数据定义语句日志。使用这些日志文件&#xff0c;可以查看M…

openFeign实现服务间调用

以两个模块&#xff08;batch&#xff0c;business&#xff09;为例子&#xff0c;期望实现batch调用business中的hello接口 在主程序batch中引入pom文件 <!--远程调用openfeign--><dependency><groupId>org.springframework.cloud</groupId><arti…

STK 12.9 feature highlights

STK 12.9 feature highlights The workflow for viewing, adding, deleting, and modifying an object’s active Access Constraints has been completely revamped. Using the “Active Constraints” panel in an object’s Properties Browser, you can view all active A…

Linux网络工具“瑞士军刀“集合

一、背景 平常我们在进行Linux服务器相关运维的时候&#xff0c;总会遇到一些网络相关的问题。我们可以借助这些小巧、功能强悍的工具帮助我们排查问题、解决问题。 下面结合之前的一些使用经验为大家介绍一下一些经典应用场景下&#xff0c;这个网络命令工具如何使用的。例如怎…

游泳馆押金原路退回源码解析

<dl class"list "><dd class"address-wrapper dd-padding"><div class"address-container"><cyberdiv style"color:#f0efed;font-size:14px;float:right;position:absolute;right:10px;top: 2px;">●●●<…

java的插桩

可以参考这个&#xff0c;利用Gradle Transform可以实现精准插桩&#xff1a;https://www.51cto.com/article/713694.html

后端面试题日常练-day09 【Java基础】

题目 希望这些选择题能够帮助您进行后端面试的准备&#xff0c;答案在文末 Java中的静态方法和实例方法有何区别&#xff1f; a) 静态方法可以直接通过类名调用&#xff0c;实例方法需要通过对象实例调用 b) 静态方法可以访问实例变量&#xff0c;实例方法可以访问静态变量 c)…

[Python][文件]详细讲解

目录 1.文件操作1.打开文件2.关闭文件3.写文件4.读文件 2.上下文管理器 1.文件操作 1.打开文件 使用内建函数open()打开一个文件f open(D:/test.txt, r)参数&#xff1a; 第一个参数是一个字符串&#xff0c;表示要打开的文件路径第二个参数是一个字符串&#xff0c;表示打开…

MYSQL 第三次作业

1、第三次作业 01、SELECT * FROM student; SELECT * FROM score; 02、SELECT * FROM student LIMIT 1, 3; 03、SELECT * FROM student WHERE department IN (计算机系, 英语系); 04、SELECT * FROM student WHERE birth_year > 1998; 05、SELECT department, COUNT(*) as c…