阿里云通义千问720亿参数模型开源,适配企业级、科研级高性能应用

12月1日,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型。未来,企业级、科研级的高性能应用,也有了开源大模型这一选项。

通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。力度之大,业界无出其右。

业界最强开源模型,填补中国LLM开源领域空白

Qwen-72B基于3T tokens高质量数据训练,延续通义千问预训练模型一贯以来的强势表现,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。

英语任务上,Qwen-72B在MMLU基准测试取得开源模型最高分;中文任务上,Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基准,得分超越GPT-4;数学推理方面,Qwen-72B在GSM8K、MATH测评中断层式领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力有了质的飞跃。

在10大权威测评中,通义千问720亿参数模型获得开源模型最优成绩

通义千问720亿开源模型部分成绩超越闭源的GPT-3.5和GPT-4

Qwen-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。

用户仅用一句提示词就可创建自己的AI助手

此前,中国大模型市场还没出现足以对标Llama 2-70B的优质开源模型。Qwen-72B填补了国内空白,以高性能、高可控、高性价比的优势,提供不亚于商业闭源大模型的选择。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI for Science等科研工作。

从1.8B到72B,通义千问率先实现全尺寸开源

如果说Qwen-72B“向上摸高”,抬升了开源大模型的尺寸和性能天花板;发布会上的另一开源模型Qwen-1.8B则“向下探底”,成为尺寸最小的中国开源大模型,推理2K长度文本内容仅需3G显存,可在消费级终端部署。

从18亿、70亿、140亿到720亿参数规模,通义千问成为业界首个“全尺寸开源”的大模型。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

阿里云是国内最早开源自研大模型的科技企业,8月以来开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL。几款模型先后冲上HuggingFace、Github大模型榜单,得到中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用。发布会现场,多位开发者伙伴现身说法,分享了他们用Qwen开发专属模型和特定应用的实践。

阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

通义千问基座模型持续进化,多模态探索业界领先

通义千问在多模态大模型领域的探索也领先业界一步,当天,阿里云首次开源音频理解大模型Qwen-Audio。

Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。音频理解能够赋予大模型接近人类的听觉能力。

通义大模型能“听”也能“看”。通义千问8月开源出视觉理解大模型Qwen-VL,迅速成为国际开源社区最佳实践之一。本次发布会又宣布了Qwen-VL的重大更新,大幅提升通用OCR、视觉推理、中文文本理解基础能力,还能处理各种分辨率和规格的图像,甚至能“看图做题”。不论从权威测评成绩还是真人体验的效果看,Qwen-VL的中文文本理解能力都大幅超越了GPT-4V。

通义千问闭源模型也在持续进化,一个月前发布的通义千问2.0版闭源模型,最近已进阶至2.1版,上下文窗口长度扩展到32k,代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力分别提升30%、10%、近5%和14%。用户可以在通义千问APP免费体验最新版本的闭源模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/206815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud + Vue前后端分离-第2章 使用Maven搭建SpringCloud项目

Spring Cloud Vue前后端分离-第2章 使用Maven搭建SpringCloud项目 Maven两大核心功能: 依赖管理(Jar包管理) 构建项目(项目打包) 使用Eureka搭建注册中心 使用spring initializr创建spring cloud项目 SpringCloud…

FastAPI之声明请求参数示例数据

在Pydantic模型中添加额外的JSON模式数据 您可以声明Pydantic模型的示例,这些示例将被添加到生成的JSON模式中。 示例代码 from fastapi import FastAPI from pydantic import BaseModelapp FastAPI()class Item(BaseModel):name: strdescription: str | None …

(C语言实现)高精度除法 (洛谷 P2005 A/B Problem II)

前言 本期我们分享用C语言实现高精度除法,可通过该题测试点我点我,洛谷 p2005。 那么话不多说我们开始吧。 讲解 大家还记不记得小学的时候我们是怎么做除法的?我们以1115为例。 我们的高精度除法也将采用这个思路进行,分别用两…

Python-算术运算符详解

运算符 算术运算符 关系运算符 逻辑运算符 赋值运算符 算术运算符:加减乘除 %求余 **平方 // 先算乘方,再算乘除,最后是加减。括号可以改变优先级 0不能作为除数(不论是整型0还是浮点0) 除法截断:舍弃小…

UDP群聊

客户端 import java.awt.BorderLayout; import java.awt.Dimension; import java.awt.EventQueue; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader…

使用VBA快速统计词组(单词组合)词频

实例需求:产品清单如A列所示,现在如下统计词组词频。想必各位小伙伴都指定如何使用字典对象实现去重,进而实现单个单词的词频统计。 但是统计词组词频就没有那么简单了,为了便于演示,此处的词组只限于两个单词的组合。…

【解决办法】Pycharm中新添加或者导入项目文件名红色!

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、问题描述二、问题原因三、解决办法 一、问题描述 Pycharm的代码中添加新的文件夹,发现文件夹下的文件名是红色的,如下图: …

设计模式——单例模式(Singleton Pattern)

概述 单例模式确保一个类只有一个实例,而且自行实例化并向整个系统提供整个实例,这个类称为单例类,它提供全局访问的方法。单例模式是一种对象创建型模式。单例模式有三个要点:一是某个类只能有一个实例;二是它必须自行…

Java---线程讲解(二)

文章目录 1. Runnable接口2. 卖票案例3. 同步代码块解决数据安全问题4. 同步方法解决数据安全问题5. 线程安全的类6. Lock锁 1. Runnable接口 1. 创建线程的另一种方法是声明一个实现Runnable接口的类,之后重写run()方法,然后可以分配类的实例&#xff0…

基于remix+metamask+ganache的智能合约部署调用

在我们部署合约时为了让它更接近真实区块链去中心化体验,我们需要调用小狐狸(Metamask)来进行真实交易,而metamask里没有内置虚拟测试币,我们需要进行调用Ganache来添加带有虚拟测试币的账号。以上就是三者的关系&…

从 MLOps 到 LMOps 的关键技术嬗变

本文整理自 2023 年 9 月 3 日 QCon 全球软件开发大会 2023 北京站 —— 从 MLOps 到 LMOps 分论坛的同名主题演讲。 本次分享的内容结构如下: 从 MLOps 到 LMOps; MLOps 概述、挑战与解决方案; LMOps 实施挑战与关键技术(大模…

[FPGA 学习记录] 快速开发的法宝——IP核

快速开发的法宝——IP核 文章目录 1 IP 核是什么2 为什么要使用 IP 核3 IP 核的存在形式4 IP 核的缺点5 Quartus II 软件下 IP 核的调用6 Altera IP 核的分类 在本小节当中,我们来学习一下 IP 核的相关知识。 IP 核在 FPGA 开发当中应用十分广泛,它被称为…

使用Golang构建高性能网络爬虫

目录 一、Golang的特点 二、构建网络爬虫的步骤 三、关键技术和注意事项 使用协程进行并发处理 使用通道进行协程间的通信 合理控制并发数和处理速度 遵守网站使用协议和法律法规 防止被网站封禁或限制访问 优化网页解析和数据处理 异常处理和错误处理 日志记录和监控…

vmware虚拟机17 安装macos14过程及问题处理亲测

前期准备 1、可引导可虚拟机安装的macOS Sonoma 14 ISO镜像安装文件 我找到得地址,下载自行解决啦 2、VMware虚拟机应用软件 官网下载就好,搜个码搞定 3、解锁工具macOS Unlocker 开始安装: 1、打开VMware软件,新建一个系统…

Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理&…

完整方案开放下载!详解中国移动《通信网络中量子计算应用研究报告》

8月30日,中国移动在第四届科技周暨战略性新兴产业共创发展大会上重磅发布了《通信网络中量子计算应用研究报告》。 玻色量子作为中国移动在光量子计算领域的唯一一家合作企业兼战投企业,在量子计算应用于通信行业达成了深入合作,并在5G天线多…

干货分享|300平米A级机房设计方案

本方案中XXX计算机中心机房建设工程,是XXX的数据中心,机房位于建筑的X层,计算机机房面积300㎡。采购设备以及装修工艺主要用于XXX所属计算机机房装修工程。 考虑到中心机房投资大、使用周期长,而业主业务发展快,现代技…

空间地图GIS基础

关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、GIS基本概念 地理信息系统(Geographic Informaiton System, GIS)是一个可以建立、浏览、查询、分析地理空间数据的软件系统,其功能小…

【RHCE】openlab搭建web网站

网站需求: 1、基于域名 www.openlab.com 可以访问网站内容为 welcome to openlab!!! 增加映射 [rootlocalhost ~]# vim /etc/hosts 创建网页 [rootlocalhost ~]# mkdir -p /www/openlab [rootlocalhost ~]# echo welcome to openlab > /www/openlab/index.h…

利用法线贴图渲染逼真的3D老虎模型

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 当谈到游戏角色的3D模型风格时,有几种不同的风格&#xf…