多语言大模型 Aya-23 开源！覆盖23种语言，性能刷新SOTA

文章目录

- 1. Aya-23 技术特点
- - 1.1 预训练阶段
  - 1.2 指令微调阶段
- 2. Aya-23 性能表现
- 3. Aya-23 多语言任务评估
- 4. Aya-23 支持 23 种语言
- 5. Aya-23 应用场景

近年来，多语言大模型（MLLM）发展迅速，但大多数模型的性能依然存在显著差距，尤其是在非英语语言方面表现不佳。

为了解决上述问题，最近，加拿大AI独角兽公司 Cohere 开源了两种参数规模的多语言指令微调模型Aya-23，包括 8B 和 35B 的版本，其性能超越了 Gemma、Mistral 等同类模型，并首次支持了中文。

在这里插入图片描述

论文链接：https://arxiv.org/pdf/2405.15032
Aya-23-8B: https://huggingface.co/CohereForAI/aya-23-8B
Aya-23-35B: https://huggingface.co/CohereForAI/aya-23-35B

此次开源的 Aya-23 模型，其设计目标是在语言广度和深度上实现平衡，从本质上来讲，所有Aya系列的模型都基于 Cohere 的 Command 系列模型和 Aya Collection，但本次的重点是将更多容量分配给主要的23种语言，以改善目标语言的生成效果。

在这里插入图片描述

1. Aya-23 技术特点

1.1 预训练阶段

Aya-23 模型家族是一系列基于Cohere Command系列的预训练模型，模型在训练时使用了23种不同语言的文本数据，并采用了一系列先进的技术，例如：

并行注意力和 FFN 层：类似于 PALM-2 模型，Aya-23 采用了并行块架构，在保持模型质量的同时，显著提高了训练效率，尤其是在张量并行设置下。
SwiGLU 激活函数：与其他激活函数相比，SwiGLU 能够在保证参数量级基本一致的情况下，提升模型的下游任务性能。
无偏置：类似于 PALM2 模型，Aya-23 模型的密集层中去除了所有偏置项，提升了训练的稳定性。
旋转位置编码：使用旋转位置编码 (RoPE) 技术，能够更好地进行长文本外推，同时在短文本长度的情况下，也比其他相对位置编码方法，例如 ALiBi，取得更好的下游任务性能。
分组查询注意力 (GQA): Aya-23-8B 模型使用了分组查询注意力，每个 KV 头共享多个 Q 头，从而降低了推理时间的内存占用。
分词器：模型使用了一个大小为256k的字节对编码（Byte Pair Encoding, BPE）分词器。在分词过程中，执行了NFC（Normalization Form C）规范化，即文本在分词前会被标准化，以确保一致性。数字被拆分成单独的token，以便于模型更好地理解和处理数字信息。分词器是在预训练数据集的一个平衡子集上训练的，以确保不同语言的文本都能得到高效的表征。

1.2 指令微调阶段

由于多语言指令数据相对稀缺，研究人员采用了多种策略来增强数据的可用性：

多语言模板：利用结构化文本，将特定的自然语言处理（NLP）数据集转换成指令和回复对。用到数据集包括xP3x数据集和 Aya 数据集的样本，最终形成了一个包含5570万个样本的大型数据集合，覆盖了23种语言和161个不同的数据集。
人工标注：Aya 数据集包含了由65种语言的母语者编写的204000对人工策划的提示-响应对。我们从中筛选出我们训练模型所使用的23种语言的数据，得到了55000个样本。
翻译数据：使用了从广泛使用的英语指令数据集进行翻译的样本，从不同数据集、不同语言中随机抽取以保持多样性，最终数据包含了110万个样本。
合成数据：使用了ShareGPT5和Dolly-15k的人工标注提示，不同的是，Aya 使用了Cohere的Command R+为所有23种语言生成翻译后的ShareGPT和Dolly提示的多语言响应，最终得到了163万个样本。