阿里通义千问 Qwen2 大模型开源发布

阿里通义千问 Qwen2 大模型开源发布

Qwen2 系列模型是 Qwen1.5 系列模型的重大升级。该系列包括了五个不同尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。
在这里插入图片描述

在中文和英文的基础上,Qwen2 系列的训练数据中还增加了其他27种语言相关的高质量数据。此外,上下文长度的支持进一步扩展,最高可达到128K个 tokens(Qwen2-72B-Instruct)。

据公告称,Qwen2 模型相比 Qwen1.5 在大规模模型实现了非常大幅度的效果提升。在针对预训练语言模型的评估中,Qwen2-72B 在包括自然语言理解、知识、代码、数学以及多语言等多个能力上均显著超越了当前最优的开源模型,如 Llama-3-70B 和 Qwen1.5 最大的模型 Qwen1.5-110B。这得益于其预训练数据和训练方法的优化。

Qwen2-72B 在自然语言理解和逻辑推理等方面,尤其是科学类问题上,表现的优势更为明显。在代码测试中,Qwen2-72B 也取得了不俗的成绩,并且在多个编程语言上具有突出的表现。此外,数学能力也因为预训练数据中数学部分的优化而有了大幅度的提升。值得注意的是,在多语言表现上,Qwen2-72B 在多个领域的多语言评测上也具有一定的优势。这也意味着,Qwen2 有潜力在更多的国家和地区得到实际应用。

项目团队在微调和对齐上投入了大量的精力进行研究。Qwen2 的策略包括广泛采集指令和提示词,并利用合成数据,例如使用拒绝采样、代码执行反馈和回译等方法。

为了进一步与人类偏好保持一致,Qwen2 使用了DPO的方法。除了常见的DPO以及其变体如IPO、KTO,Qwen2 还探索了DPO与在线学习的结合,以提升模型能力上限。而为了降低对齐所产生的 “对齐税”,Qwen2 使用模型合并的方法来缓解这个问题。这一系列的努力最终帮助大幅度提升了指令微调模型的基础能力和智能等级。结果如下所示:
在这里插入图片描述

此次 Qwen2 采用了不同的模型许可。除了 Qwen2-72B 仍然使用此前的 Qianwen License 外,其余模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B 以及 Qwen2-57B-A14B 在内,均采用 Apache 2.0 的许可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25849.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++11原子操作

目录 1.什么是原子操作 2.为什么需要原子操作? 3.C中的原子操作 4.原子操作使用及注意 5.应用场景 6.使用原子操作的最佳实践 7.原子操作与锁机制的比较 8.总结 1.什么是原子操作 原子操作是一种不可分割的操作,即在多线程环境中,这些…

Linux介绍-以CentOS和Ubuntu为例---linux入门01

Linux是一种广泛使用的开源操作系统,以其稳定性、安全性和灵活性而闻名。本文将详细介绍Linux操作系统,重点讨论CentOS和Ubuntu这两个常见的发行版,并比较它们的特点、适用场景以及在实际应用中的优劣。 01 Linux操作系统概述 1.1 Linux的起…

Docker面试整理-如果Docker容器无法启动,你会如何诊断和解决问题?

当 Docker 容器无法启动时,可以通过一系列步骤来诊断和解决问题。这些步骤有助于确定问题的根源并采取相应的解决措施。以下是处理 Docker 容器启动问题的一般流程: 1. 检查容器日志 命令:docker logs <container-id或container-name>此命令将显示容器的输出日志,可能…

深度学习与人工智能

深度学习&#xff0c;是一种特殊的人工智能&#xff0c;他与人工智能及机器学习的关系如下&#xff1a; 近些年来&#xff0c;基于人工神经网络的机器学习算法日益盛行起来&#xff0c;逐渐呈现出取代其他机器学习算法的态势&#xff0c;这主要的原因是因为人工神经网络中有一中…

代码随想录算法训练营第17天|二叉树

平衡二叉树 这种开销太大了&#xff0c;最好是能够在获得子树高的递归中同时判断子树是否平衡&#xff0c;但是我纠结的是递归的输出是布尔类型&#xff0c;而不是数字类型&#xff0c;怎么在迭代子树是否平衡时计算子树的高度呢&#xff08;迭代可以计算&#xff0c;但是我想…

php高级之框架源码、宏扩展原理与开发

在使用框架的时候我们经常会看到如下代码 类的方法不会显示地声明在代码里面&#xff0c;而是通过扩展的形式后续加进去&#xff0c;这么做的好处是可以降低代码的耦合度、保证源码的完整性、团队开发的时候可以分别写自己的服务去扩展类&#xff0c;减少代码冲突等等。我自己…

C语言之常用字符串函数总结、使用和模拟实现

文章目录 目录 一、strlen 的使用和模拟实现 二、strcpy 的使用及模拟实现 三、strcat 的使用和模拟实现 四、strcmp 的使用和模拟实现 五、strncpy 的使用和模拟实现 六、strncat 的使用和模拟实现 七、strncmp 的使用和模拟实现 八、strstr 的使用和模拟实现 九、st…

使用Python批量处理Excel的内容

正文共&#xff1a;1500 字 10 图&#xff0c;预估阅读时间&#xff1a;1 分钟 在前面的文章中&#xff08;如何使用Python提取Excel中固定单元格的内容&#xff09;&#xff0c;我们介绍了如何安装Python环境和PyCharm工具&#xff0c;还利用搭好的环境简单测试了一下ChatGPT提…

java程序提供默认实现策略,并支持自定义实现策略的一种方式?并如何避雷?

java程序提供默认实现策略&#xff0c;并支持自定义实现策略的一种方式&#xff1f;并如何避雷&#xff1f; 方案&#xff1f; 说明&#xff1a; 当前是基于自定义策略注册由工具类提供&#xff0c;且默认实现策略全局可访问的前提下进行探讨&#xff0c;其他场景也可进行参…

Java 数据类型 -- Java 语言的 8 种基本数据类型、字符串与数组

大家好&#xff0c;我是栗筝i&#xff0c;这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 004 篇文章&#xff0c;在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验&#xff0c;并希望进…

如何秒杀系统架构设计

原文路径:https://learn.lianglianglee.com/%e4%b8%93%e6%a0%8f/%e5%a6%82%e4%bd%95%e8%ae%be%e8%ae%a1%e4%b8%80%e4%b8%aa%e7%a7%92%e6%9d%80%e7%b3%bb%e7%bb%9f/00%20%e5%bc%80%e7%af%87%e8%af%8d%20%e7%a7%92%e6%9d%80%e7%b3%bb%e7%bb%9f%e6%9e%b6%e6%9e%84%e8%ae%be%e8%ae%…

纳什均衡:博弈论中的运作方式、示例以及囚徒困境

文章目录 一、说明二、什么是纳什均衡&#xff1f;2.1 基本概念2.2 关键要点 三、理解纳什均衡四、纳什均衡与主导策略五、纳什均衡的例子六、囚徒困境七、如何原理和应用7.1 博弈论中的纳什均衡是什么&#xff1f;7.2 如何找到纳什均衡&#xff1f;7.3 为什么纳什均衡很重要&a…

素数的无穷大的证明

素数的无穷大——欧几里得的证明 文章目录 一、说明二、欧几里得证据三、哥德巴赫对素数无穷性的证明&#xff08;1730&#xff09;四、Frstenberg 对素数无穷性的证明(1955)五、库默尔对欧几里得证明的重述 一、说明 众所周知&#xff0c;素数是无限多的。然而&#xff0c;两…

运维一个宝塔面板的php项目的艰辛历程【解决了http3,ssl,quic】

在这个项目的环境 使用了宝塔面板 有4个php:php5.6,php7.3,php7.4,php8.0 nignx为1.20版本 升级计划&#xff1a; 升级nginx1.26.0版本&#xff0c;添加上http3协议&#xff0c;添加ssl证书 遇到的问题&#xff1a; 升级nginx1.26版本后 无法打开php5.6的后台 原因&#xff…

【知识点】nullptr 和 NULL

在 C 中&#xff0c;nullptr 和 NULL 都可以用来表示空指针&#xff0c;但是它们之间有一些重要的区别。这些区别涉及到类型安全性、代码可读性和在不同版本的 C 中的使用情况。 NULL NULL 是一个宏&#xff0c;通常定义为 0 或 (void*)0&#xff0c;它最初是在 C 语言中引入…

vmware-17虚拟机安装教程,安装linux centos系统

下载VMware 1.进入VMware官网&#xff1a;https://www.vmware.com/sg/products/workstation-pro.html 2.向下翻找到&#xff0c;如下界面并点击“现在安装” 因官网更新页面出现误差&#xff0c;现提供vmware17安装包网盘链接如下&#xff1a; 链接&#xff1a;https://pan.b…

Vue17-条件渲染

一、使用v-show属性做条件渲染 控制元素的显示和隐藏 v-show里面也能是表达式&#xff0c;只要表达式的值是boolean就行。 或者 当时结构还在&#xff1a; 二、使用v-if属性做条件渲染 结构也不在了 三、示例 方式一&#xff1a; 方式二&#xff1a; 当元素有很高的切换频率&am…

从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(四)

上一章节我们了解了 shuffle 相关的概念和原理后其实可以发现一个问题&#xff0c;那就是 shuffle 比较容易造成数据倾斜的情况。 例如上一节我们看到的图&#xff0c;在这批数据中&#xff0c;hello 这个单词的行占据了绝大部分&#xff0c;当我们执行 groupByKey 的时候触发了…

刚刚❗️德勤2025校招暑期实习测评笔试SHL测评题库已发(答案)

&#x1f4e3;德勤 2024暑期实习测评已发&#xff0c;正在申请的小伙伴看过来哦&#x1f440; ㊙️本次暑期实习优先考虑2025年本科及以上学历的毕业生&#xff0c;此次只有“审计及鉴定”“税务与商务咨询”两个部门开放了岗位~ ⚠️测评注意事项&#xff1a; &#x1f44…

pdf分割为bmp

import fitz # PyMuPDF import os from PIL import Imagedef convert_pdf_to_bmp(pdf_path, output_folder):"""将单个PDF文件的每一页转换为BMP格式的图像。:param pdf_path: PDF文件的路径。:param output_folder: 保存BMP图像的输出文件夹路径。""…