AI大模型是如何测试效果的?

AI大模型的测试和评估是一个复杂的过程,通常包括多个方面的考量,因此对大模型的测试也称为多度测试。

图片

可以简单概括为以下几个方面:

  • 基准测试(Benchmarking):使用标准数据集和任务评估模型性能,如GLUE、SuperGLUE、SQuAD等,提供不同模型在同一任务上的直接比较。
  • 多样性和覆盖性测试(Diversity and Coverage Testing):测试模型在不同类型的数据和任务上的表现,如文本生成、翻译、问答等,确保模型处理各种语言现象和上下文的能力。
  • 鲁棒性测试(Robustness Testing):检查模型在面对输入数据扰动(如拼写错误、语法错误、模糊描述等)时的表现,确保模型的误差容忍度和稳定性。
  • 效率和可扩展性测试(Efficiency and Scalability Testing):测试模型在不同计算资源和硬件环境下的运行效率,评估推理速度、内存占用和扩展能力。
  • 实际应用测试(Real-World Application Testing):在真实场景中测试模型的应用效果,如客户服务、文本分析、对话系统等,收集用户反馈和性能指标,评估实用性和用户满意度。

图片

模型的参数量

模型参数计算(以ALexNet为例):

图片

图片

图片

图片参数量在6000万,假设每个参数都是一个float,即4个字节,总字节就是24000万字节,则24000万字节/1024/1024 = 228MB

大模型竞技场Chatbot Arena

一个针对大型语言模型(LLMs),采用众包方法进行匿名、随机化的对战的评分系统。

图片

大模型测试详情

根据清华发布2024年3月版《SuperBench大模型综合能力评测报告》。SuperBench 评测体系包含了语义、代码、对齐、智能体和安全等五个评测大类,28 个子类。

图片

  • 整体表现:GPT-4 系列和 Claude-3 等国外模型在多个能力上领先,国内头部大模型 GLM-4 和文心一言 4.0 表现亮眼,差距逐渐缩小。
  • 国外大模型:GPT-4 系列表现稳定,Claude-3 综合实力强,语义理解和智能体能力评测中居首,跻身国际一流。
  • 国内大模型:GLM-4 和文心一言 4.0 表现最好,为国内头部模型;通义千问 2.1、Abab6、moonshot 网页版和 qwen1.5-72b-chat 紧随其后,部分能力评测表现不俗。
  • 能力差距:国内模型在代码编写和智能体能力上与国际一流模型仍有较大差距,需要继续努力。

*PART/1 语义评测*

图片

  • ExtremeGLUE 介绍:包含 72 个中英双语传统数据集的高难度集合,旨在提供更严格的语言模型评测标准,采用零样本 CoT 评测方式,按特定要求评分。
  • 评测方式:收集 72 个中英双语传统数据集,提取高难度题目组成 4 个维度的数据集,采用零样本 CoT 评测方式,各维度得分为回答正确题目数的百分比,总分取各维度平均值。
  • 评测流程:根据不同题目的形式和要求,对模型的零样本 CoT 生成结果进行评分

图片

在语义理解能力评测中,模型形成三个梯队。70 分档为第一梯队,包括 Claude-3(76.7 分,第一),GLM-4 和文心一言 4.0 超过 GPT-4 系列模型,分别位居第二和第三,但与 Claude-3 有 3 分差距。

图片

  • **知识 - 常识:**Claude-3 以 79.8 分领跑,GLM-4 表现亮眼,超越 GPT-4 网页版位居第二;文心一言 4.0 表现不佳,与 Claude-3 相差 12.7 分。
  • **知识 - 科学:**Claude-3 依然领先,是唯一一个 80 分以上的模型;文心一言 4.0、GPT-4 系列模型和 GLM-4 均在 75 分以上,属第一梯队。
  • **数学:**Claude-3 和文心一言 4.0 并列第一,得 65.5 分,GLM-4 领先 GPT-4 系列模型位列第三,其他模型得分集中在 55 分附近,大模型在数学能力上仍有提升空间。
  • **阅读理解:**各分数段分布平均,文心一言 4.0 超过 GPT-4 Turbo、Claude-3 和 GLM-4 拿下榜首。

PART/2 代码评测

图片

  • NaturalCodeBench(NCB)简介:评估模型代码能力的基准测试,侧重真实编程应用场景中写出正确可用代码的能力,而非传统的数据结构与算法解题能力。
  • 评测方式:运行模型生成的函数,将输出结果与测例结果比对打分,计算生成代码的一次通过率 pass@1。
  • 评测流程:给定问题、单元测试代码和测例,模型生成目标函数;运行目标函数,用测例中的输入作为参数得到输出,与标准输出比对,输出匹配得分,输出不匹配或函数运行错误均不得分。

图片

在代码编写能力评测中,国内模型与国际一流模型仍有明显差距。GPT-4 系列和 Claude-3 模型在代码通过率上明显领先。国内模型中,GLM-4、文心一言 4.0 和讯飞星火 3.5 表现突出,综合得分超过 40 分。但即使是表现最好的模型,代码的一次通过率仍只有约 50%,代码生成任务对现有大模型仍是一大挑战。

图片

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/16884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c语言从入门到函数速成(完结篇)

哈喽,小伙伴们大家好呀,本篇文章是这个系列的完结篇,希望大家看完后能有所收获哦 首先能看到这里的同学,一定也是自觉性比较强的了,我会在文章末尾给大家发点小福利 那么,我们先来通过数学中的函数来引入一…

基于python的k-means聚类分析算法,对文本、数据等进行聚类,有轮廓系数和手肘法检验

K-means算法是一种常见的聚类算法,用于将数据点分成不同的组(簇),使同一组内的数据点彼此相似,不同组之间的数据点相对较远。以下是K-means算法的基本工作原理和步骤: 工作原理: 初始化&#x…

Elasticsearch之入门与安装

Elaticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来…

探索python循环逻辑的魅力:从无限到有限

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:循环逻辑的初步认识 二、无限循环:持续运转的引擎 三、有…

通过 PW6606 快充电压诱骗芯片,了解 USB-A 与 USB-C 快充协议

充电器一般分两种: 1, A 口充电器,就是我们常见的 USB 口,如下图,这种通用快充协议叫: QC3.0,QC2.0 快充,是属于快充刚开始的充电协议,支持 5V,9V,12V 和 20V 电压输出充电器&#x…

国内信创数据库生态

国内信创数据库生态 国内信创数据库主要包括但不限于以下几种: 数据库类型与厂商: 达梦 (武汉达梦) 官网 https://www.dameng.com/DM8.html 人大金仓 (北京) 官网 https://www.kingbase.com.cn/tyxsjk/i…

Open3D(C++) OTSU点云二值化

目录 一、算法原理二、代码实现三、结果展示1、原始点云2、二值化本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 最大类间方差法(Between-class scatter method)是一种用于分割的方法,它通过计算图…

Moto和Inter字节序

inter: 低地址按照start_bit位放低字节依次往高字节填充 MotoLsb: 低地址按照start_bit位放高字节,依次往低字节填充MotoMsb:高字节按照start_bit位放低地址,依次往高字节填充

【linux】服务器sshd服务导致CPU负载过高问题

一、背景 一台服务器突然访问ssh特别缓慢,top命令查看后,服务器Load Average占用很高。看相关异常进程都是sshd服务导致。 二、排查思路 查看服务器内存,磁盘io都是正常,在用连接数也不多。 一开始就怀疑是不是服务器被恶意攻…

grpc、多集群、多租户

gRPC和服务发现 一个A high-performance, open-source universal RPC framework,高性能、开源的通用 RPC 框架。使用protobuf 语言基于文件定义服务,通过 proto3 工具生成指定语言的数据结构、服务端接口以及客户端 Stub。移动端上面则是基于标准的 HTTP…

snmp学习小结

背景 很多厂商网络设备获取网络信息接口不一样,snmp用来统一接口 官网Net-SNMP 模型 每个主机可以安装自己的snmp agent,它可以监控目标机器的网络流量,当外部查询snmp信息时,请求会发到目标机器的snmp agent,由sn…

谷歌地图 | Google I/O ‘24 重磅发布助力企业拓展海外市场的新功能!

编者按:本文是 Google I/O 2024 系列的一部分,该系列分享了Google 年度开发者大会上最新的 Google Maps Platform 新闻。 距全球首个 Google Maps API 问世已近 20 年。它引领了网络和移动端地理空间体验的革命。从那时起,Google Maps Platf…

深入剖析—【服务器硬件】与【Nginx配置】:从基础到实战

服务器硬件部分: Processor (CPU):服务器的计算核心,负责处理数据和执行程序。Memory (RAM):用于暂时存储和快速访问数据,决定了系统的运行速度和并发处理能力。Storage (HDD/SSD):长期存储数据的设备&…

力扣hot100:146. LRU 缓存

力扣hot100:146. LRU 缓存 听说华为实习笔试考了这题 如何使得插入操作时 O ( 1 ) O(1) O(1)呢?我们需要维护一个时间的长短,以便于取出离现在最长的时间,这个时间比较容易实现,我们维护一个time表示当前时间&#x…

kettle学习之子映射组件

映射组件就跟java中的函数方法一样,类似一个子流程。 练习开始 根据数据库表中的id查询出想要的字段,并把字段存到excel表中 一、表输入 二、子映射 映射输入规范,类似java方法中的形参 name vsxcd是方法返回的参数 三、excel输出 运行结果…

VS2022编译CMake的工程

开源项目大都是用Make文件组织项目代码编译。对熟悉Window体系,一直用VS套件工作的人,还是有不小的隔阂。 好在有大神们帮助我们解决此类问题,使用CMake工具,可以自动转换工程类型。 1、解压缩代码,找到CMakeList.tx…

Python考试复习--day3

1.统计字符串个数 ninput() z0 s0 k0 o0 for i in n:if i.isalpha():zz1elif i.isnumeric():ss1elif i.isspace():k1else:o1 print(字母有{}个,数字有{}个,空格有{}个,其他字符{}个.format(z,s,k,o))2.分类统计字符 ninput() x0 d0 s0 k0 o0 for i in n:if i.islower():x1elif …

韩愈,文起八代之衰的儒学巨匠

💡 如果想阅读最新的文章,或者有技术问题需要交流和沟通,可搜索并关注微信公众号“希望睿智”。 韩愈,字退之,生于唐代宗大历三年(公元768年),卒于唐穆宗长庆四年(公元82…

武汉网红餐馆火灾背后的安全警示:可燃气体报警器需定期校准

在餐饮业快速发展的今天,安全问题一直是行业内外关注的重点。 最近,武汉一家网红餐馆在就餐高峰期突发火灾,事件迅速成为公众关注的焦点。这一事故不仅给餐馆带来了重大损失,也引发了对于餐馆安全管理的深思。 尤其是可燃气体报…

基于SqlSugar的开发框架循序渐进介绍(20)-- 在基于UniApp+Vue的移动端实现多条件查询的处理

在做一些常规应用的时候,我们往往需要确定条件的内容,以便在后台进行区分的进行精确查询,在移动端,由于受限于屏幕界面的情况,一般会对多个指定的条件进行模糊的搜索,而这个搜索的处理,也是和前…