智源更新大模型排行榜:豆包大模型“客观评测”排名国产第一

6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过 GPT-4o 和 GPT-4。

图:豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)

FlagEval 大模型评测平台由智源研究院与多个高校团队共建,以人类认知能力的发展阶梯为基准,对齐大模型所能达到的认知水平。FlagEval 构建了大量原创的非公开评测集,确保评测质量和公正性。自2023年6月上线以来,FlagEval 已完成了1000多次覆盖全球大模型的评测。

Doubao-Pro 是由字节跳动自主研发的大语言模型,于5月15日正式发布。本期 FlagEval 大模型排行榜,是豆包大模型在公开评测中的首次亮相。

测试成绩显示,豆包大模型的数学能力、知识运用、任务解决等多项能力在客观评测和主观评测中都有着出色表现。其中,知识运用和数学能力得分排名客观评测第一、主观评测前三,任务解决测试得分在主客观评测中均排名前三。

数学能力是评估大模型是否“聪明”的一个重要维度。此前,复旦大学自然语言处理实验室就2024 年高考数学题对13家主流大模型产品进行评测,豆包的数学高考新课标 II 卷答题获得最高分,客观题正确率达到 74.66%,成绩优于GPT-4o及国内多款大模型产品。

图片来源:复旦NLP实验室公众号

据悉,豆包大模型是国内使用量最大、应用场景最丰富的大模型之一,日均处理 token 达到千亿级。其同名AI对话助手“豆包”,在苹果APP Store和各大安卓应用市场的AIGC类应用中下载量排名第一。目前,豆包大模型正在通过字节跳动旗下的火山引擎向企业市场开放服务,已经与OPPO、荣耀、小米、三星、华硕等智能终端厂商建立合作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/29544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

隧道代理是什么?怎么运作的?

隧道代理作为网络代理的一种形式,已经在现代互联网世界中扮演着重要的角色。无论是保护隐私、访问受限网站还是实现网络流量的安全传输,隧道代理都发挥着重要作用。在本文中,我们将深入探讨隧道代理的概念、运作方式以及在不同场景中的应用。…

天风宏观:再论经济“去金融化”

天风宏观认为,经济“去地产化”之后也正在“去金融化”,应逐渐淡化金融数据对于经济的指示意义,更关注经济数据本身和进行中的结构转型。 5月金融数据延续了此前逻辑, 受规范手工补息、存款分流等因素影响,M1同比-4.2%…

【多线程】线程状态

🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 1. 枚举线程所有状态2. 线程转移2.1 示意图2.2 观察 NEW 、 RUNNABLE 、 TERMINATED 状态的转换2.3 观察 WAI…

【K8S】通过官方 kubeadm 快速搭建 Kubernetes 集群

文章目录 1、环境准备2、搭建流程2.1、初始化配置2.2、安装 Docker2.3、部署 K8S 1、环境准备 针对本次K8S集群搭建环境,可以使用虚拟机,不过这里我直接模拟真实生产线上环境,忍痛购买了3台阿里云ECS服务器,服务器信息如下&#…

决定罗德岛州(Rhode Island)版图的关键历史事件

决定罗德岛州(Rhode Island)版图的关键历史事件: 1. 早期探索与定居:罗德岛州的早期历史与英国*民者有关,特别是宗教难民的定居。1636年,为了逃避马萨诸塞湾*民地的宗教迫害,罗杰威廉姆斯建立了…

可以聊天的ai软件有实用的吗?分享3个智能的软件!

在数字化浪潮席卷而来的今天,人工智能(AI)技术已经深入我们生活的方方面面,其中AI聊天软件以其独特的交互方式和智能化的对话体验,吸引了众多用户的关注。本文将为您盘点当前市场上热门的AI聊天软件,带您领…

MCK主机加固在防漏扫中的关键作用

在当今这个信息化飞速发展的时代,网络安全成为了企业不可忽视的重要议题。漏洞扫描,简称漏扫,是一种旨在发现计算机系统、网络或应用程序中潜在安全漏洞的技术手段。通过自动化工具,漏扫能够识别出系统中存在的已知漏洞&#xff0…

PyCharm QThread 设置断点不起作用

背景: 端午节回来上班第一天,不想干活,领导又再后面看着,突然想起一个有意思的问题,为啥我的程序在子进程QThread的子类里打的断点不好用呢?那就解决一下这个问题吧。 原因: 如果您的解释器上…

GitHub加载慢怎么解决

选了一个最简单的方法记录一下 一、GitHub为什么加载这么慢 简而言之就是,国内DNS默认解析到美国服务器(慢),我们只要绕过DNS解析,直接访问韩国日本服务器(快)就可以解决访问缓慢的问题。 二、…

一个按钮更改Notes字体大小

大家好,才是真的好。 在说到正文以前,我们还是提两句,上周HCL发布了Notes/Domino 12.0.2FP4补丁,以及在亚马逊云应用市场上架了HCL Domino 14.0。 现在谈谈正文部分。 随着岁月飞逝,使用Notes的人也开始日渐眼花&a…

Mac M3 Pro 安装 Zookeeper-3.4.6

1、下载安装包 官方下载地址:https://archive.apache.org/dist/zookeeper/ 网盘下载地址:https://pan.baidu.com/s/1j6iy5bZkrY-GKGItenRB2w?pwdirrx 提取码: irrx 2、解压并添加环境变量 # 将安装包移动到目标目录 mv ~/Download/zookeeper-3.4.6.…

vue3根据按钮切换更新echarts对应的数据

效果图 初始化注意 setOption的函数定义,option是指图表的配置项和数据,notMerge是指是否不跟之前设置的 option 进行合并。默认为 false。即表示合并。如果为 true,表示所有组件都会被删除,然后根据新option 创建所有新组件 //…

vue引入aos.js实现滚动动画

aos.js官方网站:http://michalsnik.github.io/aos/ aos.js介绍 AOS (Animate on Scroll) 是一个轻量级的JavaScript库,用于实现当页面元素随着用户滚动进入可视区域时触发动画效果。它不需要依赖 jQuery,可以很容易地与各种Web开发框架&#…

MikroTik RouterOS 授权签名验证分析

MikroTik 软路由 百科https://baike.baidu.com/item/mikrotik/9776775官网https://mikrotik.com/ 授权文件分析 -----BEGIN MIKROTIK SOFTWARE KEY------------ mr3jH5qhn9irtF53ZICFTN7Tk7wIx7ZkxdAxJ19ydASY ShhFteHMntBTyaS8wuNdIJJPidJxbuNPLTvCsv7zLA …

STM32学习笔记(八)--DMA直接存储器存取详解

(1)配置步骤1.配置RCC外设时钟 开启DMA外设2.初始化DMA外设 调用DMA_Init 外设存储器站点的起始地址 数据宽度 地址是否自增 方向 传输计数器 是否需要自动重装 选择触发源 通道优先级3.开启DMA控制 4.开启触发信号输出(如果需要硬件触发&…

在线报表设计器 ,FastReport Online Designer 2024.2新版本(下)

在上篇文章《在线报表设计器 ,FastReport Online Designer 2024.2新版本(上) 》中,我们已经介绍了部分在线设计器的新功能,这部分将继续为大家介绍其他新功能,欢迎查阅~ 报告设计器中的功能进行了大规模更…

对input输入框的正则限制

一、0-100的整数 正则&#xff1a; const inputRules ref([{required: false,trigger: "blur",validator: (rule, value, callback) > {const reg /^[0-9]$/; // 只允许整数if ((0 < value && value < 100 && reg.test(value)) ||valu…

AI时代的数据治理:挑战与策略

随着人工智能&#xff08;AI&#xff09;技术的突飞猛进&#xff0c;我们已迈进智能时代的大门。在这个新时代里&#xff0c;数据无疑成为推动AI创新与进步的核心力量。然而&#xff0c;与此同时&#xff0c;数据治理的紧迫性也日益凸显&#xff0c;它成为确保AI系统有效、公正…

【STM32】GPIO简介

1.GPIO简介 GPIO是通用输入输出端口的简称&#xff0c;简单来说就是STM32可控制的引脚&#xff0c;STM32芯片的GPIO引脚与外部设备连接起来&#xff0c;从而实现与外部通讯、控制以及数据采集的功能。 STM32芯片的GPIO被分成很多组&#xff0c;每组有16个引脚。 最基本的输出…

SQL聚合函数---汇总数据

此篇文章内容均来自与mysql必知必会教材&#xff0c;后期有衍生会继续更新、补充知识体系结构 文章目录 SQL聚集函数表&#xff1a;AGV()count()根据需求可以进行组合处理 max()min()max&#xff08;&#xff09;、min&#xff08;&#xff09;、avg&#xff08;&#xff09;组…