GLM-4多模态重磅更新!摸着OpenAI过河!

智谱CEO张鹏说:OpenAI摸着石头过河,我们摸着OpenAI过河
摸来摸去摸了一年,以每3-4个月升级一次基座模型的速度,智谱摸着OpenAI过河的最新成绩到底怎么样?真如所说吗?

听到GLM-4发布的当天,我就去试用了一下GLM-4,毕竟是国内 全自研第四代基座大模型GLM-4!

实际体验

我依次测试了多模态、ALL Tools、个性化智能定制功能。

多模态

首先测试其图片理解能力,上传了一张猫片:

从结果来看,它基本上理解了这个图片的内容。

上传一张更复杂的图片试试呢?图片里有几个人?几个男人几个女人?

我也是学CV的,它答不准的原因在于底层图片识别、图像分割能力的不足,还需要继续努力。

为了测试它到底是不是真的理解图片里的含义,我上传了五环的图片,它成功的告诉我这个是五环,代表世界五大洲的团结和合作,赞!

All Tools

All Tools其实代表的是模型能否理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。

我首先提了一个问题来验证联网能力:

它通过联网搜索的方式给出了答案:

总体来说,给出的内容还算不错。

我想进一步看看它的信息整合能力如何,于是让它进行表格的整理,这次等待的时间比较长,因为联网搜索了很久···,甚至还超时失败了,最终也没成功。

代码解释(CodeInterpreter)能力如何呢?先问了一下运行环境,但是无法给出准确的内存限制等,只给出了一些支持的代码或者运行库,值得注意的是,在运行的代码里本身不能联网:

为了测试基本的代码能力,我让它进行python得文件读取和保存:

画图能力如何呢?尝试一个主体进行三种风格的爆改:

怎么说呢,虽然在细节方面还不够好,比不上Dalle-3、SD或者MJ,但是已经基本能够满足要求了。可以满足给小朋友或者简单场景的绘画需求。

GLMs个性化智能体定制

这个功能其实瞄准的就是GPTs了,甚至从官方公告上来看,未来GLMs也将开放出开发者权限,并且进行收益分成(但是现在有个问题,GLM本身是不收费的,怎么盈利分成呢?可能的答案是:进行会员收费;回答里嵌套广告)

MaaS平台和API

按照智谱AI官方的说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)

据智谱AI CEO张鹏介绍GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。 它可以支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发,大大降低推理成本。

此次发布的 GLM-4,在多个评测集上性能已接近或超过GPT-3.5,个别项目上几乎持平GPT-4。其中以下四个能力更新,是 GLM-4 最大的亮点:

  • 多模态能力:推出了CogView3代,效果超过开源SD模型,逼近 DALLE-3。
  • All Tools能力:GLM-4能自主理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。
  • GLMs个性化智能体定制:用户可以通过智谱清言官方网站创建属于自己的GLM智能体,无需编程基础。
  • MaaS平台和API:GLM-4登陆了Maas平台,提供API访问,支持开发者内测Assistant API。

数据指标

数据集表现

MMLU(Massive Multitask Language Understanding):评估大模型的对于知识的理解,目前GLM-4是81.5分,GPT-4得分86.4分,目前能达到GPT4的94%

GSM8K(Grade School Math 8K):测试数学能力,小学数学和初中数学水平。GLM-4得分87.6,达到GPT-4的95%;

MATH:数学测试,涉及到一些较难的逻辑推理,GLM-4得分47.9,达到GPT-4的91%

BBH(Big Bench Hackathon):偏综合测试,比如翻译、语言理解、逻辑推理等内容。GLM-4得分82.3,达到GPT-4的99%水平

HellaSwag:偏常识测试,GLM-4得分85.4,达到GPT-4的90%水平

HumanEval:纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。GLM-4得分72,达到GPT-4的100%水平。

指令跟随能力方面,和GPT-4相比,IFEval在Prompt提示词跟随(中文)方面达到88%,指令跟随(中文)方面达到 90%水平,超过GPT-3.5。

对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。

大海捞针测试, GLM-4模型能够在128K文本长度内实现几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降问题。

展望

在 2023 年,智谱 AI 基于 GLM-130B 研发了 ChatGLM,并经过三个版本的迭代,逐渐增加了多模态理解、代码解释、网络搜索增强等新功能。

去年年初,智谱 AI 承诺要在 2023 年底实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。作为一年前设定的目标,GLM-4 的性能已经有了显著提升。从标准的大模型评估角度来看,整体上已经逼近了 GPT-4。

希望国产大模型能够更进一步,我很担心未来在AI领域,又出现被掐脖子的事情~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/634727.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++深入之虚函数、虚继承与带虚函数的多基派生问题

基础 在讲解带虚函数的多基派生问题时,我们要先弄清楚不带虚函数的多基派生存在什么样的问题,这样才好弄明白带虚函数的多基派生问题。 多基派生的二义性问题 一般来说,在派生类中对基类成员的访问应当具有唯一性,但在多基继承…

Docker(二)安装指南:主要介绍在 Linux 、Windows 10 和 macOS 上的安装

作者主页: 正函数的个人主页 文章收录专栏: Docker 欢迎大家点赞 👍 收藏 ⭐ 加关注哦! 安装 Docker Docker 分为 stable test 和 nightly 三个更新频道。 官方网站上有各种环境下的 安装指南,这里主要介绍 Docker 在…

DAZ to maxon 实时面捕52个blendshapes 表情模板基本形中英文对照表

一、转自: DAZ to maxon 实时面捕52个blendshapes 表情模板基本形中英文对照表 - 哔哩哔哩 很多学员反映实时表情怎么就不同步呢?这个问题其实很常见。 第一:表情模板的顺序弄错,导致表情错乱。 第二:表情模板不标准…

AbstractHttpMessageConverter + easyexcell优雅下载附件

介绍 AbstractHttpMessageConverter 是 Spring 框架中用于处理 HTTP 消息转换的抽象基类。它用于处理来自 HTTP 请求的消息,并将其转换为特定的 Java 对象,或者将 Java 对象转换为 HTTP 响应消息。 这个抽象类允许开发人员创建自定义的 HTTP 消息转换器,以便在 Spring MVC…

职务岗位的概念澄清及应用

背景 现在的企业数字化平台中,有一些术语组织管理中的术语,理解上很有歧义,并且命名和应用上简直五花八门,洋相百出,比如,我们的大厂,就把角色这次,可以作为分类、分组的标签就能大…

2024-01-15(SpringMVCMybatis)

1.拦截器:如果我们想在多个handler方法(controller中的方法)执行之前或者之后都进行一些处理,甚至某些情况下需要拦截掉,不让handler方法执行,那么就可以使用SpringMVC为我们提供的拦截器。 拦截器和过滤器的区别:过滤…

基于内容的图像web检索系统

题目:基于内容的图像在线检索系统 简介:基于内容的图像在线检索系统(Content Based Online Image Retrieval , 以下简称 CBOIR),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。典型的CBOIR系统&#xff…

分布式事务Seata实战-AT模式(注册中心为Eureka)

大致记录Seata的AT模式下创建项目过程中需要注意的点和可能遇到的问题。 本项目是以官网的给的示例(即下图)进行创建的,以Eureka为注册中心。 官网:Seata AT 模式 | Apache Seata™ 官方代码示例: 快速启动 | Apac…

算法笔记(动态规划入门题)

1.找零钱 int coinChange(int* coins, int coinsSize, int amount) {int dp[amount 1];memset(dp,-1,sizeof(dp));dp[0] 0;for (int i 1; i < amount; i)for (int j 0; j < coinsSize; j)if (coins[j] < i && dp[i - coins[j]] ! -1)if (dp[i] -1 || dp[…

Doris配置外表以及多个Hive外表的配置

1.场景分析 以Clickhouse、Doris、Starrocks等为代表的mpp分析数据库正在快速的兴起&#xff0c;以其高效查询、跨库整合能力收到广大技术人员的喜爱。本文主要浅显介绍下作者在使用Doris时&#xff0c;通过建立catlog进行跨库查询。 废话不多少&#xff0c;直接上代码 2.相关…

力扣211. 添加与搜索单词 - 数据结构设计

字典树 思路&#xff1a; 设计一棵字典树&#xff0c;每个节点存放单词的一个字符&#xff0c;节点放一个标记位&#xff0c;如果是单词结束则标记&#xff1b;字典树插入&#xff1a; 字典树默认有 26 个 slot 槽代表 a - z&#xff1b;遍历单词&#xff0c;如果字符对应槽存…

Python自动化实战之接口请求的实现

在前文说过&#xff0c;如果想要更好的做接口测试&#xff0c;我们要利用自己的代码基础与代码优势&#xff0c;所以该章节不会再介绍商业化的、通用的接口测试工具&#xff0c;重点介绍如何通过 python 编码来实现我们的接口测试以及通过 Pycharm 的实际应用编写一个简单接口测…

『Open3D』1.10 Tensor数据处理

open3d中实现了自身的数据类型,用于open3d中内部算法的数值计算,但基础使用上与numpy类似。 目录 1、tensor创建 2、tensor数据属性 3、 Tensor数据在CPU与GPU上的转换

Linux/Traceback

Enumeration nmap 使用nmap初步扫描发现只开放了22和80端口&#xff0c;端口详细扫描情况如下 先看看web是什么样子的&#xff0c;打开网站发现有一条留言&#xff0c;显示该站点已经被黑了&#xff0c; 并且留下了后门 查看源代码&#xff0c;可以看到下面的注释 <!--So…

Docker中创建并配置MySQL、nginx、redis等容器

Docker中安装并配置MySQL、nginx、redis等 文章目录 Docker中安装并配置MySQL、nginx、redis等一、创建nginx容器①&#xff1a;拉取镜像②&#xff1a;运行nginx镜像③&#xff1a;从nginx容器中映射nginx配置文件到本地④&#xff1a;重启nginx并重新配置nginx的挂载 二、创建…

LabVIEW精确测量产品中按键力和行程

项目背景 传统的按键测试方法涉及手工操作&#xff0c;导致不一致和效率低下。在汽车行业中&#xff0c;带有实体按键的控制面板非常常见&#xff0c;确保一致的按键质量至关重要。制造商经常在这些组件的大规模、准确测试中遇到困难。显然&#xff0c;需要一个更自动化、精确…

Kubernetes (十四) 调度策略

一. 调度策略 二. 调度方法 nodeName 创建pod配置文件 vim nodename.yaml apiVersion: v1 kind: Pod metadata: name: nginx labels…

23 SEMC外扩SDRAM

文章目录 23.1 SDRAM 控制原理23.2 SEMC 简介 23.1 SDRAM 控制原理 RT1052 系列芯片扩展内存时可以选择 SRAM 和 SDRAM 由于 SDRAM 的“容量/价格”比较高&#xff0c;即使用 SDRAM 要比 SRAM 要划算得多。 给 RT1052 芯片扩展内存与给 PC 扩展内存的原理是一样的 PC 上一般…

【计算机网络】HTTP协议以及简单的HTTP服务器实现

文章目录 一、HTTP协议1.认识URL2.urlencode和urldecode3.HTTP协议格式4.HTTP的方法5.HTTP的状态码6.HTTP常见Header7.重定向8.长连接9.会话保持10.基本工具 二、简单的HTTP服务器实现1.err.hpp2.log.hpp3.procotol.hpp4.Sock.hpp5.Util.hpp6.httpServer.hpp7.httpServer.cc8.总…

网络编辑day4

思维导图 广播模型发送端-->类似于UDP客户端 #include<head.h> int main(int argc, const char *argv[]) {//1、创建套接字int sfdsocket(AF_INET,SOCK_DGRAM,0);if(sfd-1){perror("socket error ");return -1;}//2、将套接字设置成允许广播int broadcast1…