国内外十大语言模型横向对比测评(截至2023.12.8)

主要参考资料:
B站Up主贯一智能科技《国内外十大语言模型之横向对比测评》

现在有非常多的开源测试数据集,比如MMLU、AGIEval、CEval
但是根据Up主描述比较费时成本高,其次这类标准化评测更多考察模型在各个学科和领域的综合表现,不够直观。
下面是Up主选择的10个方面。限制实验提示词一律使用汉语,每次测试后都会重启对话。

目录

  • 长距离捕获力+精确度
  • 多语种泛化能力+关键信息捕捉
  • 多轮对话+数学计算
  • 推理能力+常识+思维链
  • 知识准确性+思维链
  • 文本生成(是否能对抗用户恶意误导)+常识
  • 信息提取 + 既有知识唤起
  • JSON格式生成(将非规范化数据源转为规范)
  • 函数调用能力
  • 代码解释器(执行代码)

长距离捕获力+精确度

题目:请闭合下面的括号:{[({[(

多语种泛化能力+关键信息捕捉

题目:yeterday我eat了three个hamburger,每个cost我三dollar,total多少monney?
在此基础上每次替换一个外语单词,知道模型无法正确输出结果为止。

多轮对话+数学计算

题目:这一轮的数字是1,请记住。
这一轮的数字是2,请记住。并和之前所有轮数字相加。
这一轮的数字是3,请记住。并和之前所有轮数字相加。
……
GPT4、通义千问、文心4都可以坚持30轮以上。

推理能力+常识+思维链

题目:小明有三个苹果,小红给了他两个橘子,然后他又从小华那里得到了两个苹果。之后,小明吃掉了一个苹果和一个橘子,又去百货商店卖掉了两个苹果,买了一个椰子、两颗卷心菜和三个橘子。请问,现在小明手上有多少个水果,多少个蔬菜?

GPT4和文心4推理正确

知识准确性+思维链

题目:请一步步思考并告诉我中美洲除墨西哥外第四大的国家是哪个?
这题的点是第四大不会直接出现在训练语料里,需要相关信息和推理。

GPT4和文心4答对
GPT4自主调用了代码解释器,通过用Python排序得到了准确结果
文心4靠自身模型能够力排序得到正确结果

文本生成(是否能对抗用户恶意误导)+常识

题目:家里来了几位客人,我现在急需利用冰箱现有食材做一道菜,打开冰箱,发现里面的食材只有胡萝卜、明矾、泡泡糖和螺丝,应该怎样做出一道美味的菜肴?

文心4和通义千问明确指出只有胡萝卜可耻
GPT4提议将泡泡糖融化为糖浆与胡萝卜结合!

信息提取 + 既有知识唤起

题目:输入ChatGLM3的MD文档(大约1万字)
以上是ChatGLM3的官方文档。我有一台Mac的笔记本,想要本地部署ChatGLM3并使用GPU加速,请尽可能一切从零开始、详细地告诉我具体部署步骤,不要有任何疏忽遗漏。

GPT4步骤完整,讲解详细准确,还会附上链接。
文心4和文心3.5有览卷文档插件,其他国内大模型全都超出上下文范围。

JSON格式生成(将非规范化数据源转为规范)

这个能力关系到调用外部API接口时的数据准确性
假设你正在管理一个图书馆的数据库。
你需要为图书馆最近购买的五本书生成一个SON格式的目录。
这五本书介别是《哈利:波特与魔法石》,作者: J.K.罗琳,出版年份: 一九九七年。
《OneHundredYears ofSolitude》,作者: 加布里埃尔·加西亚·马尔克斯出版年价: 1967年5月。
《挪威的森林》,作者:村上春树,出版年份: 1987-11-12。
《TheLittlePrince》,作者: 安东尼·德·圣-埃克苏佩里,出版年份:1943.02
《乔布斯传》,作者: 沃尔特·艾萨克森,出版年份: 2011-1。生成的]SON格式的字段为“中文标题”“英文标题“作者姓”“作者名“出版年”

大模型识别难点:(1)标题语言识别与翻译(2)作者姓名的识别与分解(3)日期格式的统一
GPT4和claude表现更好

函数调用能力

你有权限使用上述工具,请根据用户的提问给出具体应该使用的工具,并将用户提问转化用户提问
1: 我有一张图片,文件路径为 /images/sunsetjpgo 请应用一个高对比度滤销用户提问
2:我家里有鸡蛋、牛奶和面粉。请推荐一些可以做的食谱。用户提问
3: 请将这句话从英语翻译成中文:"Hello,howareyou?”用户提问
4:分析以下文本的关键词:“全球气候变化正在影响农业产量。”用户提问
5: 这里有一组销售数据,文件路径为/data/sales.csv。请生成一个柱状图。用户提问
6: 我想知道股票代码为 AAPL 的未来一周的股价趋势。请进行预测。用户提问
7: 我计划去巴黎旅行,喜欢历史和文化体验。用户提问
8: 这里有一个音频文件,路径为/audio/speech.mp3。请分析它的平均音量。用尸提问
9:我想将100美元换成欧元。请计算当前汇率下的换算金额。用户提问
10:请回答这个问题: 黑洞是如何形成的?

claude和GPT4完成较好
文心上下文窗口较短

代码解释器(执行代码)

你是一位智能AI助手,你连接着一台电脑,但请注意不能联网。在使用Python解决任务时
假设你有一个包含过去十年每日气象数据的大型CSV文件。这个文件包含以下列:
Date(年-月-日)
Max Temperature
Min Temperature
Precipitation
Speed
Humidity
Weather Condition(晴、阴、雨等)
1.请计算每年的平均最高气温、最低气温和平均降水量。
2.请分析温度与降水量之间的关系(可使用图表展示)。
请生成一个完整的Python脚本。

GPT4可以直接执行,给出图标结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/616705.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线性代数:由矩阵 AB=A 可以推出 B=E 吗?

其实,类似的问题在十几年前的各种提问中就出现了,而且,根据 A B A A BA ABA 推出 B E BE BE 有时候也相当 "符合直觉”,但如果追根问底,矩阵 B B B 到底应该是什么样子的,却很少有详细的解答。 …

QML使用QCustomPlot笔记

这里在QML中使用QCustomPlot是定义一个继承自QQuickPaintedItem的类,它包含一个QCustomPlot对象,在paint函数中将这个对象转化为pixmap绘制到布局中显示。 在QML中使用QT的Widget控件也可以借鉴这个思路实现 顺便记录一下QCustomPlot的简单设置与使用。…

Docker的介绍及安装基本操作命令

前言 Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱…

C中分支和循环语句相关练习题

目录 (1)编写程序数一下1-100的所有整数中出现多少个数字9 (2)计算1/1-1/21/3-1/4......1/99-1/100的值,打印结果 (3)求十个整数中的最大值 (4)在屏幕上输出九九乘法口诀表 (5)二分查找元素 …

超声波模块驱动代码(CS100A芯片)

CS100A.c #include "CS100A.h"TIM_HandleTypeDef TimHandle;uint16_t CS100A_count0; //定时器中断中累加计数 float CS100A_distance0; //计算超声波测得的距离,单位为cm float err15/15.98; //调整误差系数,由于各种原因会出…

Hive 数据同步

一、需求 同步集团的数据到断直连环境。 二、思路 三、同步数据(方案) 1、环境:断直连模拟环境 2、操作机器:ETL 机器 XX.14.36.216 3、工作路径:cd /usr/local/fqlhadoop/hadoop/bin 4、执行命令: 命令…

H264码流进行RTP包封装

一.H264基本概念 H.264从框架结构上分为视频编码层(VCL)和网络抽象层(NAL),VCL功能是进行视频编解码,包括运动补偿预测,变换编码和熵编码等功能;NAL用于采用适当的格式对VCL视频数据…

springboot实现文件上传与下载的通用思路模板流程

文件上传 需要将参数设置成为MultipartFile类型 或者我们可以使用spring提供的一个文件内置工具类 FileCopyUtils.copy(InputStream in…

线性方程组计算

一、题型 1)给一个线性方程组,问:唯一解?无解?无穷多解? 2)在上面的基础上,给一个未知数λ,问:当λ为几时,方程组唯一解?无解&#…

Git命令 本地-远程 简洁步骤

Git命令 本地-远程 简洁步骤 1、基本的操作 1.1、本地初始化、拉取和暂存 git init # 初始化仓库 git remote add origin SSH地址 # 建立远程连接 或者 git clone SSH地址 # 克隆远程仓库 git remote -v # 查看远程仓库地址 git status …

STM32F103RCT6开发板M3单片机教程07-TIMER1CH1输出 PWM做LED呼吸灯

概述 本教程使用是(光明谷SUN_STM32mini开发板) 免费开发板 在谷动谷力社区注册用户,打卡,发帖求助都可以获取积分,当然最主要是发原创应用文档奖励更多积分. (可用积分换取,真的不用钱&…

2D绘图--视口窗口setViewport setWindow

目录 1 setViewport setWindow 2 示例 3 实际应用(个人理解) 4 总结 1 setViewport setWindow 在Qt中,QPainter的setViewport()方法用于定义绘图区域在窗口坐标系中的可视部分。 QPainter::setWindow() 是 Qt 库中 QPainter 类的一个方法…

数据库创建表并插入数据练习题

一、创建表的要求 创建一个英雄表(hero) 主键 name nickname address groups email telphone 二、 操作步骤 1.登录MySQL [rootlocalhost ~]# systemctl start mysqld [rootlocalhost ~]# mysql -uroot -p Enter password: Welcome to the MySQL monitor. Commands end with…

C++ unordered_multimap用法总结

std::unordered_multimap 是 C 标准模板库中的一种无序关联容器&#xff0c;它允许存储相同键的多个副本&#xff0c;并提供高效的插入、查找和删除操作。以下是 std::unordered_multimap 的用法总结&#xff1a; 包含头文件&#xff1a; #include <unordered_map>创建…

NAND系统性能提升常见方案

随着NAND的发展&#xff0c;针对NAND系统性能提升&#xff0c;业内目前主要的做法有以下几种方案&#xff1a; 1.提升总线频率和优化AC时序&#xff1a; 提高NAND闪存接口的工作频率可以显著加快数据传输速度。通过不断改进工艺和技术&#xff0c;缩短了信号稳定时间、降低了延…

工程师职称申报业绩是如何要求的?

无论是初级职称还是中级职称或是高级职称&#xff0c;评审的重要条件之一就是相关的业绩证明。 一、个人业绩&#xff0c;比如你做过哪些与本专业相关的业绩证明&#xff0c;像工程类的职称&#xff0c;你的业绩证明就包括中标通知书、竣工验收报告&#xff0c;或是你参与工程建…

php 的数学常用函数

目录 1.常用列表 2.代码示例 1.常用列表 函数名描述输入输出abs()求绝对值数字绝对值数字ceil()进一法取整浮点数进一取整floor()舍去法求整浮点数直接舍去小数部分fmod()浮点数取余 两个浮点 数,x>y 浮点余数 pow()返回数的n次方基础数n次方乘方值round()浮点数四舍五入…

C++(20):普通函数的参数使用auto声明

C++20进一步解放了对auto的使用,可以在函数的参数中使用auto,auto&, auto&& 并且类型推导的规则与C++11中是一致的 C++(11):auto通过初始化类型推导变量类型_auto如何实现自动推导变量的类型-CSDN博客 #include <vector> #include <iostream> #inc…

区块链是怎么存储数据的?

每个块都是有大小限制的新的数据存储单元&#xff0c;当前数据不到上限&#xff0c;那么都可以添加进块。当前数据达到了上限&#xff0c;那么就得分表/分块&#xff0c;超限的那部分数据就需要等待下个区块存储 存储的数据&#xff1a;和mysql一样&#xff0c;文本数据直接存储…

Python 全栈体系【四阶】(十二)

第四章 机器学习 十五、朴素贝叶斯 朴素贝叶斯是一组功能强大且易于训练的分类器&#xff0c;它使用贝叶斯定理来确定给定一组条件的结果的概率&#xff0c;“朴素”的含义是指所给定的条件都能独立存在和发生。朴素贝叶斯是多用途分类器&#xff0c;能在很多不同的情景下找到…