Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文

前言

近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。

  • Huggingface模型下载:https://huggingface.co/CohereForAI/aya-23-8B

  • AI快站模型免费加速下载:https://aifasthub.com/models/CohereForAI

技术特点

Aya-23 基于 Cohere 自研的 Command 模型系列,并结合了 Aya 多语言指令风格数据集,旨在为 23 种语言提供强大的多语言理解和生成能力。

基于 Command 模型,拥有强大的性能基础

Aya 23 模型家族基于 Cohere Command 系列模型,该系列模型使用包含 23 种语言的混合数据进行预训练,并采用了一系列先进的技术,例如:

  • 并行注意力和 FFN 层: 类似于 PALM-2 模型,Aya 23 采用了并行块架构,在保持模型质量的同时,显著提高了训练效率,尤其是在张量并行设置下。

  • SwiGLU 激活函数: 与其他激活函数相比,SwiGLU 能够在保证参数量级基本一致的情况下,提升模型的下游任务性能。

  • 无偏置: 类似于 PALM2 模型,Aya 23 模型的密集层中去除了所有偏置项,提升了训练的稳定性。

  • 旋转位置编码: 使用旋转位置编码 (RoPE) 技术,能够更好地进行长文本外推,同时在短文本长度的情况下,也比其他相对位置编码方法,例如 ALiBi,取得更好的下游任务性能。

  • 分组查询注意力 (GQA): Aya-23-8B 模型使用了分组查询注意力,每个 KV 头共享多个 Q 头,从而降低了推理时间的内存占用。

多语言指令风格数据集,提升模型的指令理解能力

为了提升模型对指令的理解能力,Aya 23 使用了多语言指令风格数据集,该数据集包含了来自 xP3x、Aya 和 Data Provenance 等多个数据集的样本,涵盖 23 种语言和 161 个不同的数据集。该数据集还包含了由母语使用者撰写的 204K 人工标注的提示词-响应对,以及通过机器翻译获得的多种语言指令数据集的翻译版本。

支持 23 种语言,涵盖更广泛的应用场景

Aya-23 模型家族支持 23 种语言,包括阿拉伯语、简体中文、繁体中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语,覆盖了全球约一半的人口。

性能表现

Aya-23 模型家族在各种语言、推理、编码和数学基准测试中均取得了优异的成绩,超越了同等大小甚至更大的模型,展现出了强大的多语言能力。

多语言任务评估

研究团队采用了 Üstün 等人提出的多语言评估框架,对 Aya 23 模型进行了全面评估,涵盖了 23 种语言,包括:

  • 未见过的识别任务: 在 XWinograd、XCOPA 和 XStoryCloze 等完全未见过的任务中,Aya-23-35B 模型取得了最佳表现,其平均准确率为 70.8%,超越了其他模型。

  • 通用语言理解: 在多语言 MMLU 测试中,Aya-23-8B 模型在 14 种语言中取得了最佳表现,其平均准确率为 48.2%,在大部分语言上超过了其他模型。

  • 多语言数学推理: 在 MGSM 测试中,Aya-23-8B 模型也取得了领先优势,其平均准确率为 36.6%,是同类模型中表现最优秀的,并且比 Aya-101-13B 提升了 4.5 倍。

  • 生成任务: 在机器翻译和多语言摘要任务中,Aya 23 模型也取得了显著的性能提升。

人类偏好评估

为了评估模型的开放式生成能力,研究团队进行了人类偏好评估,结果显示:

  • LLM 评估: 使用 GPT-4 作为评价模型,Aya 23 模型在 10 种语言中,针对不同规模的模型均表现出色,其平均获胜率均高于同类模型。

  • 人类评估: 人类评估人员在 5 种语言中,对 Aya 23 模型的生成结果给予了更高的评价,其平均获胜率高于 Aya-101-13B 模型。

开源发布

为了促进多语言模型技术的发展,Cohere 团队公开发布了 Aya-23 的 8B 和 35B 模型,为研究人员和开发者提供了更多选择,加速多语言模型技术的发展和应用。

应用场景

Aya-23 模型家族拥有广泛的应用场景,例如:

  • 机器翻译: 可以用于将一种语言的文本翻译成其他语言。

  • 文本摘要: 可以用于将长篇文本压缩成简短的摘要。

  • 问答系统: 可以用于回答用户的各种问题。

  • 内容创作: 可以用于生成各种类型的文本内容,例如新闻报道、故事、诗歌等。

总结

Aya-23 的发布,标志着多语言模型技术取得了新的突破,其卓越的性能和广泛的语言支持能力,为多语言模型的发展开辟了新的方向。随着技术的不断进步,相信 Aya-23 模型家族将会在更多领域发挥重要作用,为人们的生活带来更多的便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/CohereForAI/aya-23-8B

AI快站模型免费加速下载

https://aifasthub.com/models/CohereForAI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/16567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习预测-CNN手写字识别

介绍 这段代码是使用PyTorch实现的卷积神经网络(CNN),用于在MNIST数据集上进行图像分类。让我一步步解释: 导入库:代码导入了必要的库,包括PyTorch(torch)、神经网络模块&#xff0…

shell脚本实战--批量修改文件名

字符串截取 先来了解一下shell字符串相关操作的变量 # 从开头删除匹配最短 ## 从开头删除匹配最长 % 从结尾削除匹配最短 %% 从结尾删除匹配最长#指定字符内容截取 a*c 匹配开头为a,中间任意个字符,结尾为c的字符串 a*C 匹配…

Java—集合Collection(一)

Java—集合Collection(一) 一、Collection集合1、方法add、addAll2、声明集合特别注意1:添加对象时需要创建对象类 3、总结4、判断方法4.1、总结 5、删除6、总结7、集合的其他方法8、所有代码演练 存放单个数据内容,声明一个变量&…

netcat一键开始瑞士军刀模式(KALI工具系列六)

目录 1、KALI LINUX简介 2、netcat工具简介 3、在KALI中使用netcat 3.1 目标主机IP(win) 3.2 KALI的IP 4、命令示例 4.1 测试某IP的端口是否打开 4.2 TCP扫描 4.3 UDP扫描 4.4 端口刺探 4.5 直接扫描 5、即时通信 5.1 单击对话互联 5.2 传…

新能源锂电池行业创业的财富方案,锂电池回收高阶课

课程下载:https://download.csdn.net/download/m0_66047725/89292234 更多资源下载:关注我。 实战攻略 12年锂电池回收行业经验与坑全收录 课程内容: 001-课程介绍.mp4 002-锂电池的全种类认识.mp4 003-废品锂电池到级片粉末价值估算,mp…

Go微服务: Http服务注册在Consul的示例(非Go-Micro)

概述 现在,我们使用consul客户端的api来把Http服务注册到consul上,非Go-Micro的形式其实,consul官方提供了对应的接口调用来实现,golang中的consul/api包对其进行了封装我们使用consul/api来进行展示 目录结构 gitee.com/go-mi…

设计模式7——建造者模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用,主要是下面的UML图可以起到大作用,在你学习过一遍以后可能会遗忘,忘记了不要紧,只要看一眼UML图就能想起来了。同时也请大家多多指教。 建造者模式(Builde…

VMware ESXi 7.0 U3q 发布 - 领先的裸机 Hypervisor

VMware ESXi 7.0 U3q 发布 - 领先的裸机 Hypervisor VMware ESXi 7.0 Update 3 Standard & All Custom Image for ESXi 7.0U3 Install CD 请访问原文链接:https://sysin.org/blog/vmware-esxi-7-u3/,查看最新版。原创作品,转载请保留出…

3小时-入门短视频创作:短视频创作入门必修(15节视频课)

课程目录 1、先导课.mp4 2、建立视听思维.mp4 3、口语化.mp4 4、具象化.mp4 5、建立选题思维.mp4 6、2个小白好上手的选题技巧.mp4 7、建立开场思维.mp4 8、3个口播视频方能开场套路.mp4 9、建立脚本结构思维.mp4 10、爆款口指的3大结构.mp4 11、建立标题思维.mp4 …

https为何安全?

HTTPS(超文本传输安全协议)是一种用于安全通信的网络协议,它在HTTP协议的基础上通过SSL/TLS(安全套接层/传输层安全)协议来加密数据,以保护网络数据的传输安全。 TLS/SSL 基础概念 概念源自百度百科&…

内存的基本知识与连续分配管理

目录 一. 内存的基础知识1.1. 什么是内存1.2 指令的工作原理1.2.1 装入的三种方式 - 绝对装入1.2.2 可重定位装入1.2.3 动态重定位装入1.3 从写程序到程序运行 二. 基本内存管理的概念三. 覆盖与交换3.1 覆盖技术3.2 交换技术 四. 连续分配管理方式4.1 单一连续分配4.2 固定分区…

【全开源】知识答题系统源码小程序(FastAdmin+ThinkPHP+Unipp)

打造智慧问答的基石 一、引言:知识答题系统的时代意义 在信息爆炸的时代,知识答题系统源码作为一种高效、有趣的知识传播方式,受到了越来越多人的关注和喜爱。通过搭建知识答题系统,我们可以将海量的知识内容以答题的形式展现给…

网络协议——Modbus-TCP

目录 1、简介 2、Modbus-TCP与Modbus-RTU的区别 3、消息格式 4、功能码01H 5、功能码02H 6、功能码03H 7、功能码04H 8、功能码05H 9、功能码06H 10、功能码0FH 11、功能码10H 1、简介 Modbus-TCP(Modbus Transmission Control Protocol)是一…

【linux】g++/gcc编译器

目录 背景知识 gcc如何完成 预处理(进行宏替换) 编译(生成汇编) 汇编(生成机器可识别代码) 链接(生成可执行文件或库文件) 在这里涉及到一个重要的概念:函数库 函数库一般分为静态库和动态库两…

DOS学习-目录与文件应用操作经典案例-comp

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.使用 三.案例 案例 1: 基本比较 案例 2: 十进制显示差异 案例 3: 字符形式显…

【数据结构】二叉树和堆

文章目录 一、 什么是二叉树二、 二叉树的存储结构顺序存储视图 三、 堆堆的结构及概念大堆和小堆 四、 建堆五、 堆排序六、 topk问题 一、 什么是二叉树 二叉树,作为一种重要的数据结构,由节点组成,每个节点可以有两个子节点,通…

精品丨快速申请免费https证书

https域名证书对提高网站排名有一定的好处,所以当今很多企业为了给网站一个好的安全防护,就会去申请该证书。如今很多企业虽然重视网站的安全防护,但是也重视成本,所以为了节约成本会考虑申请免费的https证书。 第一个好处 企业不…

阻塞信号集和未决信号集_代码实现

1. 程序验证内容 将编号为0,1,2添加到阻塞信号集中&#xff0c;i<信号编号时&#xff0c;发出信号&#xff0c;观察未决信号集状态 当解除阻塞后&#xff0c;原先的信号是否执行&#xff0c;执行顺序是什么 2. 代码实现 #include <unistd.h> #include <stdlib.h…

Mac彩球一直转圈怎么解决 苹果电脑经常卡住 mac电脑运行慢怎么办

用Mac电脑办公的朋友在操作体积比较大的程序时&#xff0c;比如Final Cut Pro或者Photo Shop&#xff0c;一定遇到过鼠标变更彩球并不停转圈。这是怎么回事&#xff1f;今天本文就告诉大家Mac彩球一直转圈怎么解决&#xff0c;以及苹果电脑经常卡住是什么原因。 一、Mac彩球一直…

Wireshark 搜不到字符串?

一个原因是pcap里没有这个字符串&#xff0c; 另一个原因可能是ctrlF之后&#xff0c;选择搜索的地方不对&#xff0c;或者是编码方式选择的不对。 上面图片的第一个下拉框是要搜索的一个范围&#xff0c;是在哪一个panel搜索&#xff0c;范围说明在下面这个链接有详细说明&…