书生大模型实战营--L1关卡-OpenCompass 评测 InternLM-1.8B 实践

一、使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 MMLU 数据集上的性能

1、使用lmdeploy部署 internlm2-chat-1.8b模型

2、根据OpenCompass官网教程安装并下载数据集

opencompass/README_zh-CN.md at main · open-compass/opencompass · GitHub

注意:

pyhton3.11 安装pyext时报错

解决方法:

[Python]AttributeError: module ‘inspect‘ has no attribute ‘getargspec‘. Did you mean: ‘getargs‘解决方法_attributeerror: module 'inspect' has no attribute -CSDN博客x

下载源码:

pyext · PyPI

修改内容:

pyext-0.7/pyext.py

然后执行python setup install 进行安装

3、再里面的 opencompass/configs/eval_internlm_chat_lmdeploy_apiserver.py增加1.8b调用地址

注意:评测mmlu的时候注释掉其他数据集

4、运行评测脚本---使用API调用

python run.py configs/eval_internlm_chat_lmdeploy_apiserver.py -w outputs/turbomind/internlm-1-8b --datasets mmlu_ppl

评测结果:

dataset                                            version    metric    mode      internlm2-chat-1_8b
-------------------------------------------------  ---------  --------  ------  ---------------------
lukaemon_mmlu_college_biology                      8c2e29     accuracy  gen                     46.53
lukaemon_mmlu_college_chemistry                    0afccd     accuracy  gen                     41.00
lukaemon_mmlu_college_computer_science             c1c1b4     accuracy  gen                     41.00
lukaemon_mmlu_college_mathematics                  9deed0     accuracy  gen                     33.00
lukaemon_mmlu_college_physics                      f5cf5e     accuracy  gen                     36.27
lukaemon_mmlu_electrical_engineering               3d694d     accuracy  gen                     40.00
lukaemon_mmlu_astronomy                            7ef16f     accuracy  gen                     48.03
lukaemon_mmlu_anatomy                              2d597d     accuracy  gen                     41.48
lukaemon_mmlu_abstract_algebra                     ec092c     accuracy  gen                     33.00
lukaemon_mmlu_machine_learning                     d489ae     accuracy  gen                     27.68
lukaemon_mmlu_clinical_knowledge                   af10df     accuracy  gen                     52.83
lukaemon_mmlu_global_facts                         cad9e0     accuracy  gen                     24.00
lukaemon_mmlu_management                           65f310     accuracy  gen                     68.93
lukaemon_mmlu_nutrition                            80bf96     accuracy  gen                     50.65
lukaemon_mmlu_marketing                            9a98c0     accuracy  gen                     68.38
lukaemon_mmlu_professional_accounting              9cc7e2     accuracy  gen                     28.01
lukaemon_mmlu_high_school_geography                c28a4c     accuracy  gen                     56.57
lukaemon_mmlu_international_law                    408d4e     accuracy  gen                     56.20
lukaemon_mmlu_moral_scenarios                      9f30a6     accuracy  gen                     25.70
lukaemon_mmlu_computer_security                    2753c1     accuracy  gen                     55.00
lukaemon_mmlu_high_school_microeconomics           af9eae     accuracy  gen                     52.52
lukaemon_mmlu_professional_law                     7c7a62     accuracy  gen                     34.49
lukaemon_mmlu_medical_genetics                     b1a3a7     accuracy  gen                     56.00
lukaemon_mmlu_professional_psychology              c6b790     accuracy  gen                     42.32
lukaemon_mmlu_jurisprudence                        f41074     accuracy  gen                     53.70
lukaemon_mmlu_world_religions                      d44a95     accuracy  gen                     61.40
lukaemon_mmlu_philosophy                           d36ef3     accuracy  gen                     47.91
lukaemon_mmlu_virology                             0a5f8e     accuracy  gen                     38.55
lukaemon_mmlu_high_school_chemistry                5b2ef9     accuracy  gen                     42.36
lukaemon_mmlu_public_relations                     4c7898     accuracy  gen                     51.82
lukaemon_mmlu_high_school_macroeconomics           3f841b     accuracy  gen                     47.95
lukaemon_mmlu_human_sexuality                      4d1f3e     accuracy  gen                     51.15
lukaemon_mmlu_elementary_mathematics               0f5d3a     accuracy  gen                     32.54
lukaemon_mmlu_high_school_physics                  0dd929     accuracy  gen                     31.79
lukaemon_mmlu_high_school_computer_science         bf31fd     accuracy  gen                     41.00
lukaemon_mmlu_high_school_european_history         d1b67e     accuracy  gen                     59.39
lukaemon_mmlu_business_ethics                      af53f3     accuracy  gen                     47.00
lukaemon_mmlu_moral_disputes                       48239e     accuracy  gen                     45.95
lukaemon_mmlu_high_school_statistics               47e18e     accuracy  gen                     48.61
lukaemon_mmlu_miscellaneous                        573569     accuracy  gen                     57.47
lukaemon_mmlu_formal_logic                         7a0414     accuracy  gen                     31.75
lukaemon_mmlu_high_school_government_and_politics  d907eb     accuracy  gen                     61.66
lukaemon_mmlu_prehistory                           65aa94     accuracy  gen                     50.00
lukaemon_mmlu_security_studies                     9ea7d3     accuracy  gen                     53.06
lukaemon_mmlu_high_school_biology                  775183     accuracy  gen                     55.48
lukaemon_mmlu_logical_fallacies                    19746a     accuracy  gen                     53.99
lukaemon_mmlu_high_school_world_history            6665dc     accuracy  gen                     67.09
lukaemon_mmlu_professional_medicine                a05bab     accuracy  gen                     41.54
lukaemon_mmlu_high_school_mathematics              0e6a7e     accuracy  gen                     28.52
lukaemon_mmlu_college_medicine                     5215f1     accuracy  gen                     46.82
lukaemon_mmlu_high_school_us_history               b5f235     accuracy  gen                     54.41
lukaemon_mmlu_sociology                            4980ec     accuracy  gen                     60.70
lukaemon_mmlu_econometrics                         4d590b     accuracy  gen                     29.82
lukaemon_mmlu_high_school_psychology               440e96     accuracy  gen                     65.50
lukaemon_mmlu_human_aging                          d0a8e1     accuracy  gen                     47.98
lukaemon_mmlu_us_foreign_policy                    adcc88     accuracy  gen                     72.00
lukaemon_mmlu_conceptual_physics                   a111d3     accuracy  gen                     34.04

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVAWeb实战(前端篇)

项目实战一 0.项目结构 1.创建vue3项目,并导入所需的依赖 npm install vue-router npm install axios npm install pinia npm install vue 2.定义路由,axios,pinia相关的对象 文件(.js) 2.1路由(.js) import {cre…

当全球银行系统“崩溃”时会发生什么?

有句名言:“当美国打喷嚏时,世界就会感冒……”换句话说,当人们对美国及其经济稳定性的信心下降时,其他经济体(以及黄金、白银和股票等资产)的价值往往会下降。 与任何其他资产类别一样,加密货…

超详细-数据结构-二叉树概念及结构,堆的概念及结构以及堆的代码的c语言实现

本篇博客将详细讲述二叉树的概念,堆的概念及结构以及堆的代码实现,以及二叉树,堆的相关应用。Top K 问题,堆排序的实现以及二叉树链式结构的实现将在之后的博客更新。你可在目录中找到你想重点阅读的内容。堆的完整代码实现在文章…

【秋招笔试题】方程

解析&#xff1a;暴力枚举。建议用Python的eval函数,C手写略麻烦。 #include <iostream> #include <string> #include <vector> #include <sstream>using namespace std;long long stringResult(const string &expr) {vector<string> plusP…

visual studio性能探测器使用案列

visual studio性能探测器使用案列 在visual studio中&#xff0c;我们可以使用自带的工具对项目进行性能探测&#xff0c;具体如下 1.选择性能探查器 Vs2022/Vs2019中打开方式&#xff1a; Vs2017打开方式&#xff1a; 注意最好将解决方案配置为&#xff1a;Release Debu…

昇思25天学习打卡营第22天|CycleGAN图像风格迁移互换

相关知识 CycleGAN 循环生成网络&#xff0c;实现了在没有配对示例的情况下将图像从源域X转换到目标域Y的方法&#xff0c;应用于域迁移&#xff0c;也就是图像风格迁移。上章介绍了可以完成图像翻译任务的Pix2Pix&#xff0c;但是Pix2Pix的数据必须是成对的。CycleGAN中只需…

如何获得某个Window画面所属包名packageName和用户userId

在安卓上获得某个Window画面所属包名packageName和用户userId的方法 1&#xff0c;用到的工具如下&#xff1a; adb androidSDK里的monitor工具 adb shell dumpsys window animator adb shell dumpsys window命令 jdk 1.8已在安卓14模拟器上测试通过。 以AOSP的launcher中的m…

【.NET 6 实战--孢子记账--从单体到微服务】--开发环境设置

在这一小节&#xff0c;我们将设置开发环境。 一、安装SDK 咱们的项目使用的是 .NET6&#xff0c;开发前我们需要从官网上下载.NET6 SDK&#xff08;点击下载&#xff09;&#xff0c;这里要注意的是我们需要下载.NET6 SDK&#xff0c;而不是 .NET6 Runtiem 。SDK 包含 Runti…

C++静态成员变量和静态成员函数

演示代码如下&#xff1a; #include<iostream> using namespace std;class Person { public://静态成员函数 所有对象共享一个函数&#xff0c;且只能调用静态成员变量 ******static void func(){m_A 300;cout << "静态成员函数调用" << endl;}/…

【MySQL进阶之路 | 高级篇】简述Bin Log日志

1. 日志类型 MySQL有不同类型的日志文件&#xff0c;用来存储不同类型的日志&#xff0c;分为二进制日志、错误日志、通用查询日志和慢查询日志&#xff0c;这也是常用的4种。MySQL 8又新增两种支持的日志:中继日志和数据定义语句日志。使用这些日志文件&#xff0c;可以查看M…

openFeign实现服务间调用

以两个模块&#xff08;batch&#xff0c;business&#xff09;为例子&#xff0c;期望实现batch调用business中的hello接口 在主程序batch中引入pom文件 <!--远程调用openfeign--><dependency><groupId>org.springframework.cloud</groupId><arti…

Linux网络工具“瑞士军刀“集合

一、背景 平常我们在进行Linux服务器相关运维的时候&#xff0c;总会遇到一些网络相关的问题。我们可以借助这些小巧、功能强悍的工具帮助我们排查问题、解决问题。 下面结合之前的一些使用经验为大家介绍一下一些经典应用场景下&#xff0c;这个网络命令工具如何使用的。例如怎…

游泳馆押金原路退回源码解析

<dl class"list "><dd class"address-wrapper dd-padding"><div class"address-container"><cyberdiv style"color:#f0efed;font-size:14px;float:right;position:absolute;right:10px;top: 2px;">●●●<…

MYSQL 第三次作业

1、第三次作业 01、SELECT * FROM student; SELECT * FROM score; 02、SELECT * FROM student LIMIT 1, 3; 03、SELECT * FROM student WHERE department IN (计算机系, 英语系); 04、SELECT * FROM student WHERE birth_year > 1998; 05、SELECT department, COUNT(*) as c…

CSP-J模拟赛day1——解析+答案

题目传送门 yjq的吉祥数 题解 送分题&#xff0c;暴力枚举即可 Code #include<bits/stdc.h> using namespace std;int l,r; int num1,tmp0,q[10000],a[10000]; int k (int x){for (int j1;j<tmp;j){if (xq[j])return 0;}return 1; } int main(){while (num<100…

Linux Vim全能攻略:实战代码,轻松掌握文本编辑神器

1. Vim简介与安装 1.1 Vim的历史与发展 Vim&#xff08;Vi IMproved&#xff09;是一款高度可配置的文本编辑器&#xff0c;它起源于1976年由Bill Joy开发的Vi编辑器。Vi是Unix系统上最古老的文本编辑器之一&#xff0c;因其强大的功能和高效的编辑方式而广受欢迎。随着时间的…

Photos框架 - 自定义媒体选择器(UI预览)

引言 在前面的博客中我们已经介绍了使用媒体资源数据的获取&#xff0c;以及自定义的媒体资源选择列表页。在一个功能完整的媒体选择器中&#xff0c;预览自然是必不可少的&#xff0c;本篇博客我们就来实现一个资源的预览功能&#xff0c;并且实现列表和预览的数据联动效果。…

GLSL教程 第9章:计算着色器

目录 9.1 计算着色器的基本概念 计算着色器的主要特点&#xff1a; 9.2 计算着色器的基础知识 1. 创建计算着色器 计算着色器代码&#xff1a; 2. 编译和链接计算着色器 示例代码&#xff1a; 3. 执行计算着色器 示例代码&#xff1a; 9.3 实现并行计算和数据并行处理…

SD-WAN 的真相以及它如何支持企业数字化转型

企业需要灵活、安全的网络解决方案&#xff0c;以支持随时随地工作模式和多云策略&#xff0c;他们正在转向软件定义广域网 (SD-WAN) 技术来实现这一目标。 其操作简单、独立于运营商的 WAN 连接和改进的安全功能可提供直接云访问&#xff0c;并为安全访问服务边缘 (SASE) 策略…

字典树、并查集适用于算法竞赛

字典树 题目&#xff1a;835. Trie字符串统计 - AcWing题库 又称单词查找树&#xff0c;Trie树&#xff0c;是一种树形结构&#xff0c;是一种哈希树的变种。典型应用是用于统计&#xff0c;排序和保存大量的字符串&#xff08;但不仅限于字符串&#xff09;&#xff0c;所以…