【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记

《OpenCompass 大模型评测》

文档:OpenCompass大模型评测教程

1、主观评测

在这里插入图片描述

2、提示词工程

在这里插入图片描述
李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?

李华每周给2个不同的朋友写一封3页的信, 一周写两次。他一年总共写了多少页的信。

问题:李华每周给2个不同的朋友写一封3页的信,一 周写两次。他一年总共写了多少页的信?答案:

问题:李华每周给2个不同的朋友写一封3页的信,一周写两次。 他一年总共写了多少页的信?请你一步一步思考。答案:

这是一道数学题,请在“答案”后给出你的回答:李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?请你一步一步思考。答案:

3、主流大模型评测框架

在这里插入图片描述

4、大模型评测练习

在InternStudio平台中选择A100 (1/4) * 2的配置,镜像选择 Cuda11.7-conda

4.1 激活虚拟环境

conda activate opencompass

4.2 Clone项目代码

git clone https://gitee.com/open-compass/opencompass

4.3 数据集验证

cd opencompass && python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

4.4 Troubleshooting

(1)评测结果的分数表格中,出现很多数据集没有结果,而且比文档中无结果的数据集条目多很多

“刚开始我们是直接用的之前的机器配置,也就是 A100 (1/4),显存是20G”。

于是就出现了一个问题如图所示:
在这里插入图片描述
可以看到ceval-plant_protectionceval-basic_medicineceval-clinical medicine等数据集都没有评测分数,甚至连后面的metric类型都没有显示出来,而文档中即使没有显示分数的条目也都会显示metric类型,所以我们感觉有点问题;
经过查询资料得知:

“出现许多数据集无评分一般OOM了”。

再次比对视频教程,发现需要使用40G的显存配置;
修改之后,就跟文档中的结果完全一样了:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/641493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初识java—java的运算符以及程序逻辑结构

文章目录 算术运算符关系运算符逻辑运算符(重点)逻辑与 &&逻辑 ||逻辑非!短路求值(重点) 程序逻辑控制顺序结构分支结构(if else结构)switch语句基本语法 循环结构breakcontinue 从键盘输入 算术运算符 基本四…

pygame入门学习(四)位图的使用

大家好!我是码银🥰 欢迎关注🥰: CSDN:码银 公众号:码银学编程 载入图片 pygame.image.load( ),Pygame 可以通过pygame.image.load( )函数处理位图文件。 大致可以支持以下文件:JPG…

npm run serve和npm run dev的区别

1. 功能:通常,"npm run serve"用于启动开发服务器,提供实时的开发环境,支持自动重新加载和热模块替换。这样可以在开发过程中实时查看代码更改的效果。而"npm run dev"可以是一个自定义的指令,用于…

Linux--文件链接

目录 1.建立软连接 2.建立硬链接 3.什么是软链接 Linux中软链接的应用场景 4.什么是硬链接 5.文件与目录的硬链接数 6.软链接与硬链接的区别 用户无法对目录建立硬链接,可以建立软连接。 在Linux中文件的链接有两种:1.软连接 2.硬链接 1.建立软…

Oracle 高级网络压缩 白皮书

英文版白皮书在这里 或 这里。 本文包括了对英文白皮书的翻译,和我觉得较重要的要点总结。 执行概述 Oracle Database 12 引入了一项新功能:高级网络压缩,作为高级压缩选项的一部分。 本文概述了高级网络压缩、其优点、配置细节和性能分析…

HTML+CSS:3D轮播卡片

效果演示 实现了一个3D翻转的卡片动画&#xff0c;其中每个卡片都有不同的图片和不同的旋转角度。整个动画循环播放&#xff0c;无限次。整个页面的背景是一个占据整个屏幕的背景图片&#xff0c;并且页面内容被隐藏在背景图片之下。 Code <div class"container"…

redis 入门及相关知识汇总

什么是 Redis &#xff1f; 1&#xff0c;相对于mysql &#xff0c;oracle &#xff0c; 这种关系西数据库&#xff0c; 我们还有非关系数据库服务&#xff0c;他的产生是为了&#xff0c;解决常规数据库的并发能力&#xff0c;传统的关系型数据库受限于IO 和性能瓶颈&#xff…

【解决方法】pdf密码忘了怎么办?

PDF文件可以加密&#xff0c;大家都不陌生&#xff0c;并且大家应该也都知道PDF文件有两种密码&#xff0c;一个打开密码、一个限制编辑密码&#xff0c;因为PDF文件设置了密码&#xff0c;那么打开、编辑PDF文件就会受到限制。忘记了PDF密码该如何解密&#xff1f; PDF和offi…

父子组件通信$emit

文章目录 $emit 是vue中用于在子组件向父组件传递消息的一种机制。通过 $emit&#xff0c;子组件可以触发一个自定义事件&#xff0c;并向父组件传递数据。 例如&#xff1a; 以下是使用 $emit 的详细步骤&#xff1a; 1、子组件中触发自定义事件&#xff1a; <!-- ChildCom…

异步编程(JS)

前言 想要学习Promise&#xff0c;我们首先要了解异步编程、回调函数、回调地狱三方面知识&#xff1a; 异步编程 异步编程技术使你的程序可以在执行一个可能长期运行的任务的同时继续对其他事件做出反应而不必等待任务完成。 与此同时&#xff0c;你的程序也将在任务完成后显示…

微服务Spring Cloud架构详解

"Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具&#xff08;例如配置管理&#xff0c;服务发现&#xff0c;断路器&#xff0c;智能路由&#xff0c;微代理&#xff0c;控制总线&#xff09;。分布式系统的协调导致了样板模式, 使用Spring Cloud开…

jupyter notebook删除kernel & conda 删除虚拟环境

jupyter kernelspec list #列出jupyter的所有kernel jupyter kernelspec remove kernel_name #删除特定的kerneljupyter kernelspec list 命令可以在任何激活的环境中运行&#xff0c;无论是 base 环境还是某个虚拟环境。该命令将列出所有已注册的 Jupyter 内核&#xff0c;包括…

技术变革与裁员潮下程序员的挑战与应对策略

引言 一对来自中国的工程师夫妻在美身亡,疑因谷歌裁员致悲剧发生。在技术变革下,裁员对于程序员的影响到底有多大? 技术变革的影响 在当今科技日新月异的时代,技术变革正以前所未有的速度颠覆各行各业。新兴技术如人工智能、云计算、大数据、区块链等不断涌现,对软件工…

Flowable_dmn决策引擎应用

Flowable官方文档 https://www.flowable.com/open-source/docs/dmn/ch02-Configuration 对flowable的bpmn和dmn应用都比较熟悉&#xff0c;前后应用了好几年&#xff0c;年终总结需要这部分&#xff0c;文档就写一下分享给大家&#xff0c;搭建和资源下载参考&#xff1a; flo…

Linux|centos操作系统|USB设备的驱动如何寻找和USB设置的自动挂载,卸载(备忘)

仅做一个记录&#xff0c;Linux命令实在太多了&#xff0c;有些比较有趣的命令还是需要记录一下哈 1&#xff0c; usb-devices命令 该命令会打印输出现有机器上所有的USB设备&#xff0c;此命令等同于cat /sys/kernel/debug/usb/devices 其中部分输出如下&#xff1a; T: …

怎么提升数据分析能力?——功法篇(下)

先来复习一下上篇提到的3个疑问&#xff1a; 为什么我做出来的分析总觉得没有别人的那么高级&#xff1f; 老板为什么总说我的分析“太浅了”&#xff1f; 数据分析师每天的工作就是取数做需求&#xff1f; 看完上篇讲的金字塔原理&#xff0c;如果你还有疑问&#xff0c;不妨再…

【江科大】STM32:TIM输入捕获(理论部分)

文章目录 IC&#xff08;Input Capture&#xff09;输入捕获PWM频率 知识点补充1. 滤波器的工作原理&#xff1a;2. 边沿检测器&#xff1a;自动化清零CNT输入捕获的基本结构PWMI基本结构滤波器和分频器的区别误差分析pwm.cmain.cIC.c PWM模式测频率和占空比 IC&#xff08;Inp…

手机备忘录设置提醒后不通知怎么办 解决方法来了

在这个快节奏的时代&#xff0c;我们每个人都像是旋转的陀螺&#xff0c;总有无数的事项需要记录。手机备忘录&#xff0c;无疑成为了我们的得力助手。它轻便、简单&#xff0c;随时随地都能捕捉那些一闪而过的灵感和任务。 然而&#xff0c;有时我们会遇到这样的困扰&#xf…

部署开源的团队协作工具

简介 Zulip 是一个开源的团队协作工具&#xff0c;拥有独特的基于主题的线程功能&#xff0c;结合了电子邮件和聊天的优点&#xff0c;使远程工作更加高效和愉快。它是唯一设计用于实时和异步对话的现代团队聊天应用程序。其核心优势包括&#xff1a; 适用于大型企业、领先的开…

CSS的浮动(float)布局效果

<!DOCTYPE html> <html> <head> <meta charset"UTF-8" /> <title>浮动(float)布局效果</title> <style> *{ margin: 0; padding: 0; box-sizing: border-box; } /*.box1{ width: 300px; height: 300px; background-colo…