OpenChat:性能高达105.7%,第一个超越ChatGPT的开源模型?

OpenChat:性能高达105.7%,第一个超越ChatGPT的开源模型?

前几天开源模型第一还是是Vicuna-33B、WizardLM,这不又换人了。对于开源模型的风起云涌,大家见怪不怪,不断更新的LLM榜单似乎也没那么吸引人了。

最近,开源模型 OpenChat 发布了新的版本,据说在 AlpacaEval 和 VicunaGPT-4 评估上的性能超过了ChatGPT。

在这里插入图片描述

这次#击败ChatGPT的开源模型#有些唬人,到底如何呢?

根据官方介绍,OpenChat 的性能表现:

在斯坦福AlpacaEval上,以80.9%的胜率位列开源模型第一;

在Vicuna GPT-4评测中,性能则达到了ChatGPT的105.7%。

在这里插入图片描述

PART 01

开源模型 OpenChat 超越 ChatGPT

OpenLLM 是一个在多样化且高质量的多轮对话数据集上进行微调的开源语言模型系列。

具体地,研究人员从约 90K 的ShareGPT对话中,过滤出约 6K 的GPT-4对话用于微调。清洗后的GPT-4对话与对话模板和回合结束时的token相结合,然后根据模型的上下文限制进行截断(超出限制的内容将被丢弃)。

数据处理流程包括三个步骤:

清洗:对HTML进行清理并转换为Markdown格式,删除格式错误的对话,删除包含被屏蔽词汇的对话,并进行基于哈希的精确去重处理

筛选:仅保留token为Model: GPT-4的对话

转换:为了模型的微调,针对所有的对话进行转换和分词处理

要运行数据处理流程,可执行以下命令:

./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER

OpenLLM 被证明可以在有限的数据下实现高性能。
在这里插入图片描述
OpenLLM 有两个通用模型,即 OpenChat 和 OpenChat-8192。

OpenChat 模型是基于 LLaMA 模型进行微调的,它充分利用了极小、多样且高质量的多轮对话数据集。这样的数据集有助于 OpenChat 模型在对话场景中产生更准确、更自然的回复。

在这里插入图片描述

具体地,OpenChat:基于LLaMA-13B微调,上下文长度为2048

在 Vicuna GPT-4 评估中达到ChatGPT分数的105.7%

在 AlpacaEval 上取得了惊人的80.9%的胜率

具体地,OpenChat-8192:基于LLaMA-13B微调,上下文长度为8192
在 Vicuna GPT-4 评估中达到ChatGPT分数的106.6%

在 AlpacaEval 上取得的79.5%胜率

在这里插入图片描述
图注:Vicuna GPT-4评估(v.s. gpt-3.5-turbo)

在这里插入图片描述
图注:Vicuna GPT-3.5-Turbo评估(v.s. gpt-3.5-turbo)

除此之外,OpenLLM还有代码模型:

在 Vicuna GPT-4 评估中达到ChatGPT分数的102.5%

在 AlpacaEval 上获得78.7%的胜率

在这里插入图片描述

PART 02

OpenChat 安装和权重

要使用OpenLLM,需要安装CUDA和PyTorch。用户可以克隆这个资源库,并通过pip安装这些依赖:

git clone git@github.com:imoneoi/OChat.git
pip install -r requirements.txt

目前,官方提供所有模型的完整权重作为Hugging Face repos。用户可以使用以下命令来启动本地 API 服务器,网址是 http://localhost:18888。

在这里插入图片描述

该服务器与 ChatCompletions协议(请注意,有些功能不完全支持)和openai软件包兼容。用户可以通过设置来指定openai包的服务器:

openai.api_base = "http://localhost:18888/v1"

当前支持的ChatCompletions参数有:
在这里插入图片描述

PART 03

对 OpenChat 的争议

研究者采用的评估模式与 Vicuna 的略有不同,还使用了证据校准(EC)+平衡位置校准(BPC)来减少潜在的偏差。

在这里插入图片描述

虽然 OpenChat 模型在 AlpacaEval 和 VicunaGPT-4 评估中超越了ChatGPT,但这一消息并未引起网友的热烈讨论。争议声音认为 OpenChat 的评价方式夸张,并呼吁使用更高级的MT-bench基准进行评估。

为了回应这些争议,Vicuna官方回应称他们正在使用更高级的MT-bench基准进行评估。这一基准可以更全面地评估模型的性能,使评估结果更具有说服力。
在这里插入图片描述

OpenLLM 虽然够实现优秀的性能,但仍然受到其基础模型固有限制的限制,如:

复杂推理

数学和算术任务

编程和编码挑战

另外,OpenLLM 有时可能会产生不存在或不准确的信息,也称为「幻觉」。
这表明开源模型仍需要进一步改进,包括构建更好的基础模型和增加指令调优数据。无论如何,开源模型的发展仍然充满希望,我们期待未来能够看到更多的突破和进步。

参考:

https://github.com/imoneoi/openchat
https://tatsu-lab.github.io/alpaca_eval/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/717053.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在springboot项目中调用通义千问api多轮对话并实现流式输出

官网文档 阿里灵积提供了详细的官方文档 如何实现多轮对话 官方文档中提到只需要把每轮对话中返回结果添加到消息管理器中,就可以实现多轮对话。本质上就是将历史对话再次发送给接口。 如何实现流式输出 官方文档中提出使用streamCall()方法就可以实现流式输出&…

ViT的若干细节

之前只看了ViT的大概结构,具体的模型细节和代码实现知之甚少。随着ViT逐渐成为CV领域的backbone,有必要重新审视下。 patch -> token 为了将图片处理成序列格式,很自然地想到将图片分割成一个个patch,再把patch处理成token。 …

Linux学习:初始Linux

目录 1. 引子:1.1 简述:操作系统1.2 学习工具 2. Linux操作系统中的一些基础概念与指令2.1 简单指令2.2 ls指令与文件2.3 cd指令与目录2.4 文件目录的新建与删除指令2.5 补充指令1:2.6 文件编辑与拷贝剪切2.7 文件的查看2.8 时间相关指令2.9 …

【网站项目】202物流管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

不会代码的时候,如何使用Jmeter完成接口测试

1.接口测试简介 接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换,传递和控制管理过程,以及系统间的相互逻辑依赖关系等。 2.接口测试流程 接口测试的…

2024.3.1 小项目

1、机械臂 #include <myhead.h> #define SER_IP "192.168.125.32" //服务器端IP #define SER_PORT 8888 //服务器端端口号#define CLI_IP "192.168.68.148" //客户端IP #define CLI_PORT 9999 /…

Python matplotlib

目录 1、安装 matplotlib 2、绘制折线图 修改标签文字和线条粗细 校正图形 3、绘制散点图 绘制单点 绘制一系列点 自动计算数据 删除数据点的轮廓 自定义颜色 使用颜色映射 自动保存图表 4、随机漫步 创建 RandomWalk() 类 选择方向 绘制随机漫步图 给点着色 …

最简单的ubuntu远程桌面方法

最简单的ubuntu远程桌面方法 部署环境&#xff1a;Ubuntu 20.04 LTS 现在最常用的远程控制Linux系统的方法是通过XRDP、VNC等&#xff0c;但是安装配置过程繁琐复杂&#xff0c;经常出现各种问题导致连接失败&#xff0c;另外一方面延迟较高&#xff0c;操作卡顿。 经过我坚…

【Java项目介绍和界面搭建】拼图小游戏——键盘、鼠标事件

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏 …

DDS数据分发服务——提升汽车领域数据传输效率

1.引言 随着智能化技术的快速发展&#xff0c;汽车行业正经历着一场革命性的变革。如今的分布式系统变得越来越复杂且庞大&#xff0c;对网络通信基数要求在功能和性能层面越来越高。数据分发服务&#xff08;DDS&#xff09;作为一项先进的数据传输解决方案&#xff0c;在汽车…

2369. 检查数组是否存在有效划分(动态规划)

2024-3-1 文章目录 [2369. 检查数组是否存在有效划分](https://leetcode.cn/problems/check-if-there-is-a-valid-partition-for-the-array/)思路&#xff1a;代码&#xff1a; 2369. 检查数组是否存在有效划分 思路&#xff1a; 1.状态定义:f[i]代表考虑将[0,i]是否能被有效划…

电脑要用多少V的电源?电脑电源输入电压是市电

台式电源的输出电压是多少&#xff1f; 电脑电源输出一般有三种不同的电压&#xff0c;分别是&#xff1a; 12V、5V、3.3V。 电脑电源负责给电脑配件供电&#xff0c;如CPU、主板、内存条、硬盘、显卡等&#xff0c;是电脑的重要组成部分。 工作电流根据不同的硬件及其使用状…

Python算法100例-3.3 阿姆斯特朗数

完整源代码项目地址&#xff0c;关注博主私信源代码后可获取 1.问题描述2.问题分析3.算法设计4.确定程序框架5.完整的程序6.问题拓展 1&#xff0e;问题描述 如果一个整数等于其各个数字的立方和&#xff0c;则该数称为“阿姆斯特朗数”&#xff08;亦称为自恋性数&#xff…

nacos开启鉴权+springboot配置用户名密码

nacos默认没有开启鉴权&#xff0c;springboot无需用户名密码即可连接nacos。从2.2.2版本开始&#xff0c;默认控制台也无需登录直接可进行操作。 因此本文记录一下如何开启鉴权&#xff0c;基于nacos2.3.0版本。 编辑nacos服务端的application.properties&#xff1a; # 开…

Linux/Docker 修改系统时区

目录 1. Linux 系统1.1 通过 timedatectl 命令操作1.2 直接修改 /etc/localtime 文件 2. Docker 容器中的 Linux 操作环境&#xff1a; CentOS / AlmaOSMySQL Docker 镜像 1. Linux 系统 1.1 通过 timedatectl 命令操作 使用 timedatectl list-timezones 命令列出可用的时区…

32单片机基础:旋转编码器计次

接线图如上图所示。 我们初始化一下PB0和PB1两个GPIO口外设中断&#xff0c;当然&#xff0c;这里只初始化一个外部中断也能完成功能的对于编码器而言&#xff0c;下图所示为正转的波形。如果把一相的下降沿用作触发中断&#xff0c;在中断时刻读取另一相的电平&#xff0c;正…

【算法科目】2024年第二届全国大学生信息技术认证挑战赛 题解

图像压缩 曾经看到过&#xff0c;这是一道洛谷原题&#xff0c;很可惜我没做过&#xff0c;有点看不懂就没尝试。 原题链接&#xff1a;B3851 [GESP202306 四级] 图像压缩 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 因数分解 直接枚举就行了&#xff0c;从2开始找因子&a…

Spring:EnclosingClass工具类分辨

Spring&#xff1a;EnclosingClass工具类分辨 1 前言 通过Spring的工具分辨EnclosingClass类。 测试类如下&#xff1a; package com.xiaoxu.test.enclosingClass;/*** author xiaoxu* date 2024-01-18* java_demo2:com.xiaoxu.test.enclosingClass.Outter*/ public class …

微信小程序(四十六)登入界面-进阶版

注释很详细&#xff0c;直接上代码 上一篇 此文使用了vant组件库&#xff0c;没有安装配置的可以参考此篇vant组件的安装与配置 新增内容&#xff1a; 1.手机号与验证码格式验证 2.验证码的网络申请和校验 wechat-http模块在好几篇以前已经讲了咋安装的&#xff0c;不记得的友…

最新版阿里云Linux CentOS7 ecs-user用户安装Mysql8详细教程(超简单)

经过两天的踩坑后&#xff0c;终于成功安装&#xff0c;并找到了最快捷的安装方式。接下来就由我来给大家介绍不踩坑安装大法&#xff01; 一、下载Mysql 首先前往Mysql官网下载 MySQL官方下载地址 第一步&#xff0c;选择安装包&#xff0c;这是最关键的一步&#xff0c;选错安…