文章目录
- 1. Aya-23 技术特点
- 1.1 预训练阶段
- 1.2 指令微调阶段
- 2. Aya-23 性能表现
- 3. Aya-23 多语言任务评估
- 4. Aya-23 支持 23 种语言
- 5. Aya-23 应用场景
近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。
为了解决上述问题,最近,加拿大AI独角兽公司 Cohere 开源了两种参数规模的多语言指令微调模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。
论文链接:https://arxiv.org/pdf/2405.15032
Aya-23-8B: https://huggingface.co/CohereForAI/aya-23-8B
Aya-23-35B: https://huggingface.co/CohereForAI/aya-23-35B
此次开源的 Aya-23 模型,其设计目标是在语言广度和深度上实现平衡,从本质上来讲,所有Aya系列的模型都基于 Cohere 的 Command 系列模型和 Aya Collection,但本次的重点是将更多容量分配给主要的23种语言,以改善目标语言的生成效果。
1. Aya-23 技术特点
1.1 预训练阶段
Aya-23 模型家族是一系列基于Cohere Command系列的预训练模型,模型在训练时使用了23种不同语言的文本数据,并采用了一系列先进的技术,例如:
- 并行注意力和 FFN 层: 类似于 PALM-2 模型,Aya-23 采用了并行块架构,在保持模型质量的同时,显著提高了训练效率,尤其是在张量并行设置下。
- SwiGLU 激活函数: 与其他激活函数相比,SwiGLU 能够在保证参数量级基本一致的情况下,提升模型的下游任务性能。
- 无偏置: 类似于 PALM2 模型,Aya-23 模型的密集层中去除了所有偏置项,提升了训练的稳定性。
- 旋转位置编码: 使用旋转位置编码 (RoPE) 技术,能够更好地进行长文本外推,同时在短文本长度的情况下,也比其他相对位置编码方法,例如 ALiBi,取得更好的下游任务性能。
- 分组查询注意力 (GQA): Aya-23-8B 模型使用了分组查询注意力,每个 KV 头共享多个 Q 头,从而降低了推理时间的内存占用。
- 分词器:模型使用了一个大小为256k的字节对编码(Byte Pair Encoding, BPE)分词器。在分词过程中,执行了NFC(Normalization Form C)规范化,即文本在分词前会被标准化,以确保一致性。数字被拆分成单独的token,以便于模型更好地理解和处理数字信息。分词器是在预训练数据集的一个平衡子集上训练的,以确保不同语言的文本都能得到高效的表征。
1.2 指令微调阶段
由于多语言指令数据相对稀缺,研究人员采用了多种策略来增强数据的可用性:
- 多语言模板:利用结构化文本,将特定的自然语言处理(NLP)数据集转换成指令和回复对。用到数据集包括xP3x数据集和 Aya 数据集的样本,最终形成了一个包含5570万个样本的大型数据集合,覆盖了23种语言和161个不同的数据集。
- 人工标注:Aya 数据集包含了由65种语言的母语者编写的204000对人工策划的提示-响应对。我们从中筛选出我们训练模型所使用的23种语言的数据,得到了55000个样本。
- 翻译数据:使用了从广泛使用的英语指令数据集进行翻译的样本,从不同数据集、不同语言中随机抽取以保持多样性,最终数据包含了110万个样本。
- 合成数据:使用了ShareGPT5和Dolly-15k的人工标注提示,不同的是,Aya 使用了Cohere的Command R+为所有23种语言生成翻译后的ShareGPT和Dolly提示的多语言响应,最终得到了163万个样本。
2. Aya-23 性能表现
Aya-23 模型家族在各种语言、推理、编码和数学基准测试中均取得了优异的成绩,显著优于Aya 101,超越了同等大小甚至更大的模型,展现出了强大的多语言能力。
3. Aya-23 多语言任务评估
研究团队对 Aya-23 模型进行了全面评估,涵盖了 23 种语言,包括:
- 判别式任务:在 XWinograd、XCOPA 和 XStoryCloze 等完全未见过的任务中,Aya-23-35B 模型取得了最佳表现,其平均准确率为 70.8%,超越了其他模型。
- 通用语言理解:在多语言 MMLU 测试中,Aya-23-8B 模型在 14 种语言中取得了最佳表现,其平均准确率为 48.2%,在大部分语言上超过了其他模型。
- 多语言数学推理:在 MGSM 测试中,Aya-23-8B 模型也取得了领先优势,其平均准确率为 36.6%,是同类模型中表现最优秀的,并且比 Aya-101-13B 提升了 4.5 倍。
- 生成任务:在机器翻译和多语言摘要任务中,Aya-23 模型也取得了显著的性能提升。
4. Aya-23 支持 23 种语言
Aya-23 支持 23 种语言:阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
5. Aya-23 应用场景
Aya-23 模型家族拥有广泛的应用场景,例如:
- 机器翻译: 可以用于将一种语言的文本翻译成其他语言。
- 文本摘要: 可以用于将长篇文本压缩成简短的摘要。
- 问答系统: 可以用于回答用户的各种问题。
- 内容创作: 可以用于生成各种类型的文本内容,例如新闻报道、故事、诗歌等。
总的来说,Cohere 开源的 Aya-23 系列模型在多语言AI领域取得了重要突破。Aya-23 有着卓越的性能和广泛的语言支持能力,为多语言模型的发展开辟了新的方向。
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。