相信一些对LLM关注较高的同学们,应该对这家加拿大的Cohere不会太陌生。毕竟此前,它就开源过 Aya 101 和 Command R 这两款大模型。
Cohere 的非营利性研究实验室 Cohere for AI 发布了 Aya 23,这是其多语言大型语言模型 (llm) 的第二次迭代。这个最先进的 LLM 有 8B 和 35B 开放权重两种版本,支持 23 种语言,优于其前身 Aya 101。
Aya 23 将 Command 系列的高性能预训练模型与最近发布的 Aya 系列相结合。其结果是一个强大的多语言语言模型,将最先进的功能扩展到世界上近一半的人口。与 Aya 101 不同,Aya 101 通过覆盖 101 种语言来关注广度,而 Aya 23 则通过在预训练期间为更少的语言分配更多容量来强调深度。
与广泛使用的模型(如 Gemma、Mistral 和 Mistral)相比,该模型在一系列判别和生成任务中表现出卓越的性能。值得注意的是,8B版本实现了一流的多语言性能,使使用消费级硬件的研究人员能够获得这些进步。
Cohere for AI 已根据 CC-BY-NC 许可发布了 8B 和 35B 型号的开放权重。此版本是他们持续致力于扩大对多语言进步的访问并推动多语言 AI 可能性界限的一部分。
Aya 23 支持 23 种语言:阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。在快速发展的生成式人工智能领域,此次发布是朝着将更多语言视为一等公民迈出的重要一步。