阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

6 月 27 日,全球知名的开源平台 Hugging Face 的联合创始人兼首席执行官 Clem 在社交平台激动宣布,阿里 Qwen2-72B 成为了开源模型排行榜的王者。

Clem社交平台消息

这是一件大好事,说明了我们在大模型领域从先前的追赶,逐渐走向了领导,未来完全有可能会引领着全球开源模型的发展潮流,这是我们的骄傲!

不过话说回来,Qwen2 序列有 5 个参数版本,分别是 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B。本次排行榜第一的是 Qwen2-72B 参数版本,那么其他参数版本的评测结果如何呢?老牛同学查看了 Qwen2 的官方文档,有一些比较评测:https://qwenlm.github.io/zh/blog/qwen2/

Qwen2-72B 如 Clem 宣布一样,包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型:

Qwen2-72B评测结果

Qwen2-7B 模型在自然语言理解数学 方面均有点落后了:

Qwen2-7B评测结果

其他参数版本没有评测结果,老牛同学猜测是其他大模型没有对等的参数版本,因此无法进行比较,或者不相上下,也就没有必要把结果放出来了。

老牛同学的疑问

那么老牛同学的问题来了:阿里 Qwen2-72B 大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

老牛同学带着这个问题咨询了几位同事,也问了Qwen2-7B大模型,他们的回答均有一定道理,但老牛同学猜测,Qwen 这么做的核心目的只有一个:丰富 Qwen 大模型生态

原因一: 训练 Qwen 中小尺寸参数成本并不高】

以阿里人才储备、基础设施和高层 All in AI 的决心和投入,训练 Qwen 中小参数版本的模型应该不是什么难事,顺手即可做的事情,相对来说成本并不高

原因二: 快速进行迭代和模型参数优化演进】

通过快速发布多个尺寸的模型,可以让内外部的技术究人员分析和探索模型的参数规模与性能之间的关系,以便能找到最佳的平衡点,最终不断推动优化和演进 Qwen 系列大模型

原因三: 构建和丰富 Qwen 大模型全场景生态】

老牛同学认为这是最为关键的一点,开源不是目的、打榜争第一也应该不是目的,它们都只是构建并丰富生态的策略!老牛同学和大家一起来回顾 2 件事情:

Windows XP 生态: 我们还记得二零零几年的时候,满大街 Windows XP 的盗版操作系统吗?操作系统激活竟然也可以是路边打印小店的一大业务。那么,盗版这么多,微软为什么不管管?是他不知道吗,还是根本管不了?老牛同学觉得都不是,应该是微软故意放任不管:微软要赚的是企业的钱,包括 IT 公司、电脑厂商等,个人的钱不太好赚;同时,使用 Windows 操作系统的个人越多,会带动 Windows 生态发展(使用技巧和攻略、研发各种各样的软件等),进而能拉动更多使用的个人,同时对于企业来说意味着熟练的工人也越多,企业为降低成本,自然就愿意采购 Windows 正版授权,最终还是微软赚钱了!

阿里云 OS 生态: 老牛同学在二零一几年的时候看到过一张图片,图片展示的是当时的阿里 CTO 王坚博士在报告台上擦眼泪。传说是王坚博士在给一群高管做汇报,汇报内容是阿里云和手机操作系统(云 OS)。云计算在当时的中国没有任何一家企业有布局,但王坚博士坚信云计算和云 OS 的未来,他作为第一个吃螃蟹的人,在技术研发和基础设施等方面的投入成本都非常巨大,受到了一些高管和投资人的质疑,因此他边做着汇报边流着委屈的流泪。辛亏当时马老师力排众议,支持王坚博士的想法,如今阿里云在国内技术或市场上称第二,应该没有其他云能自信的称第一了。

反观 云 OS 我们几乎感知不到了,很大一个原因是 没有生态:云 OS 曾经和国内的一些手机厂商合作推出过一些手机品牌(如 小辣椒大黄蜂等),和比较大的厂商 宏基 的合作新闻发布会,后者也因 Google Android 的压力不得不放弃合作。Google 对云 OS 抄袭 Android 的 API 代码的状告一直不断。老牛同时当时咨询过一位负责云 OS 短信模块的技术同学,为什么云 OS 的 API 需要和 Android 保持一致,是技术能力不够吗?技术同学告诉老牛同学,操作系统都能研发出来,API 并没有什么技术难度,但是如果 API 不能和 Android 保持一致,那么已有的 Android APP 将无法接入,所以必须要兼容保持一致,否则没有了 Android 的生态,操作系统要推广就难于登天了。

如今,云 OS 虽然没有成为手机操作系统,但它却在车载(斑马网络)、智能家居(电视、天猫精灵等)等 OS 中大放异彩。

而 Qwen 系列大模型的 Qwen2-0.5BQwen2-1.5B可在智能家居推理;Qwen2-7B可用于个人、小团队等部署推理,个人业务不断发展,就可能购买云服务器部署,小团队业务进一步发展,也完全有可能购买 Qwen 推理服务,最终形成完美的闭环(感觉和Windows XP有那么一点点类似)。

最后:纯属老牛同学个人观点,请慎喷

以上观点纯属老牛同学个人的猜测,若有不合理之处,欢迎留言讨论,若有冒犯之处,请联系老牛同学删除此文,非常感谢!


关注本公众号,我们共同学习交流进步 👇🏻👇🏻👇🏻

微信公众号:老牛同学

开源大模型

本地部署 GLM-4-9B 清华智谱开源大模型方法和对话效果体验

Phi-3 模型手机部署教程(微软发布的可与 GPT-3.5 媲美的小模型)

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API 调用和 WebUI 对话机器人

玩转 AI,笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

一文彻底整明白,基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

基于 Llama 3 搭建中文版(Llama3-Chinese-Chat)大模型对话聊天机器人

Google 发布了最新的开源大模型 Gemma 2,本地快速部署和体验

ChatTTS 文本转语音模型

ChatTTS 开源文本转语音模型本地部署、API 使用和搭建 WebUI 界面

Stable Diffusion 3 文生图模型

Stable Diffusion 3 文生图“开源英雄”大模型本地部署和使用教程,轻松实现 AI 绘图自由

大模型应用实战

使用 Llama3/Qwen2 等开源大模型,部署团队私有化 Code Copilot 和使用教程

大模型应用研发基础环境配置(Miniconda、Python、Jupyter Lab、Ollama 等)

借助 AI 大模型,三分钟原创一部儿童故事短视频(附完整操作步骤)

高效编写大模型 Prompt 提示词,解锁 AI 无限创意潜能

Python 小游戏

AI 已来,我与 AI 一起用 Python 编写了一个消消乐小游戏

Python 游戏编程:一步步用 Python 打造经典贪吃蛇小游戏


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/40622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不看后悔!国内AI大比拼的精彩看点全汇总

至2022年AI爆发后,在中国已催生了上千个AI产品。 这些产品涵盖了从头部大厂到高等院校,再到初创企业的广泛阵容。 如: 大厂:百度文心、阿里通义、腾讯元宝、字节豆包、讯飞星火等高校:清华大学、北京大学等初创&…

【问题解决】plt.show()画出来的图像只在pycharm右侧栏显示

问题情况如下: 画出的图只在右侧栏显示,而我们想弹出一个独立的窗口,拖动鼠标可以360度查看图像,还可以保存图片。 【 问题解决 】: File -> Settings ->Tools-> Python Scientific -> 将“Show plots i…

2024 AI工程师世界博览会

6月24日至6月27日在旧金山举行的 AI 工程师世界博览会是AI 从业者和爱好者的首要活动之一。本次年度会议展示了人工智能技术的最新进展,并提供了对行业趋势的宝贵见解。 模型不是壁垒 大型语言模型(LLMs)的快速发展是会议的中心主题。OpenAI…

字节码编程ASM之生成变量并sout

写在前面 本文看下如何通过asm生成变量并sout。 1:代码 直接看代码吧,注释很详细,有不懂的,留言告诉我: package com.dahuyuo.asmtest;import org.objectweb.asm.*; import org.objectweb.asm.commons.AdviceAdapt…

Oracle EBS PO采购订单预审批状态处理

系统版本 RDBMS : 12.1.0.2.0 Oracle Applications : 12.2.6 问题症状: 采购订单状态:预审批 采购订单流程报错如下: po.plsql.PO_DOCUMENT_ACTION_AUTH.approve:90:archive_po not successful - po.plsql.PO_DOCUMENT_ACTION_PVT.do_action:110:unexpected error in acti…

C++ 教程 - 08 文件操作与异常处理

文章目录 文件操作文件对象其他方法异常处理 文件操作 需要头文件 <iostream><fstream> 读取文件 ifstream obj; obj.open(const char* filename, std::in)写入文件ofstream obj; obj.open(const char* filename, std::out)读、写文件 fstream&#xff0c;包含了i…

Python 面试【★★★】

欢迎莅临我的博客 &#x1f49d;&#x1f49d;&#x1f49d;&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Matplotlib 简介

import matplotlib.pyplot as plt plt.plot([1, 2, 3, 4]) plt.ylabel(some numbers) plt.show() 当使用plot只传入单个数组时&#xff0c;matplotlib会认为这是y的值&#xff0c;并自动生成长度相同&#xff0c;但是从0开始的x值&#xff0c;所以这里的x会自动生成为 [0,1,2,…

【代码随想录】【算法训练营】【第57天】 [卡码99]岛屿数量 [卡码100]岛屿的最大面积

前言 思路及算法思维&#xff0c;指路 代码随想录。 题目来自 卡码网。 day 57&#xff0c;周三&#xff0c;再ding一下~ 题目详情 [卡码99] 岛屿数量 题目描述 卡码99 岛屿数量 LeetCode类似题目200 岛屿数量 解题思路 前提&#xff1a; 思路&#xff1a; 重点&#…

Android adb logcat日志过滤输出

Android adb logcat日志过滤输出 adb logcat 输出所有Android设备上的日志。 adb logcat *:Error 过滤输出日志级别只为Error的日志。 过滤某些标签或tag&#xff0c;依次执行: adb shell logcat grep | "你的标签或tag" Android Studio level过滤查看各个等级的日志…

销毁终结者:IT 采购必知:高效数据销毁服务 文件销毁 硬盘销毁 数据销毁 销毁

在 IT 领域&#xff0c;设备的更新换代是常态&#xff0c;但旧设备中残留的数据却可能成为企业的潜在威胁。为了保障企业的数据安全&#xff0c;专业的数据销毁服务不可或缺。 我们专注于提供高效的文件销毁、数据销毁和硬盘销毁服务&#xff0c;确保您的企业信息得到妥善处理…

JavaScript懒加载图像

懒加载图像是一种优化网页性能的技术&#xff0c;它将页面中的图像延迟加载&#xff0c;即在用户需要查看它们之前不会立即加载。这种技术通常用于处理大量或大尺寸图像的网页&#xff0c;特别是那些包含长页面或大量媒体内容的网站。 好处 **1. 加快页面加载速度&#xff1a…

视频监控平台web客户端的免密查看视频页:在PC浏览器上如何调试手机上的前端网页(PC上的手机浏览器的开发者工具)

目录 一、手机上做前端页面开发调试 1、背景 2、视频监控平台AS-V1000的视频分享页 3、调试手机前端页面代码的条件 二、手机端的准备工作 1、手机准备 2、手机的开发者模式 3、PC和手机的连接 &#xff08;1&#xff09;进入调试模式 &#xff08;2&#xff09;选择…

#数据结构 笔记三

二叉树 1. 概念 二叉树Binary Tree是n个结点的有限集合。它或者是空集n0&#xff0c;或者是由一个根结点以及两颗互不相交、分别称为左子树和右子树的二叉树组成。 二叉树与普通有序树不同&#xff0c;二叉树严格区分左子和右子&#xff0c;即使只有一个子结点也要区分左右。…

React@16.x(47)路由v5.x(12)源码(4)- 实现 Route

目录 1&#xff0c;原生 Route 的渲染内容2&#xff0c;实现 1&#xff0c;原生 Route 的渲染内容 对如下代码来说&#xff1a; import { BrowserRouter as Router, Route } from "react-router-dom"; function News() {return <div>News</div>; }func…

【虚拟机】虚拟机网络无法访问问题【已解决】

【虚拟机】虚拟机无法上网问题【已解决】 问题探究解决方法法1&#xff1a;查看相关“网络服务”是否处于正常启动状态法2&#xff1a;重启网络法3&#xff1a;重新安装VMWare法4&#xff1a;使用NAT模式&#xff0c;每次打开win7都没连上网的解决办法 问题探究 安装了很多个虚…

上位机图像处理和嵌入式模块部署(mcu项目1:实现协议)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 这种mcu的嵌入式模块理论上都是私有协议&#xff0c;因为上位机和下位机都是自己开发的&#xff0c;所以只需要自己保证上、下位机可以通讯上&…

Feign 原理流程图练习-01

目录 作业: 老师给的参考流程图 要求 解答 知识扩展 Feign基础原理 接口定义 代理对象生成 请求调用 请求发送 响应处理 容错与熔断 总结 作业: 老师给的参考流程图 pdf版本 【金山文档 | WPS云文档】 Feign https://kdocs.cn/l/ctbagIyxN348 ​ 要求 结合上面…

基于Redisson实现分布式锁

基于redisson实现分布式锁 之前背过分布式锁几种实现方案的八股文&#xff0c;但是并没有真正自己实操过。现在对AOP有了更深一点的理解&#xff0c;就自己来实现一遍。 1、分布式锁的基础知识 分布式锁是相对于普通的锁的。普通的锁在具体的方法层面去锁&#xff0c;单体应…

班迪录屏(Bandicam)7.0下载以及安装教程

最近有小伙伴私信我&#xff0c;问我有没有好用的录屏工具&#xff0c;今天给大家分享一个我一直在使用的录屏工具&#xff0c;也是解锁了V1P版本&#xff0c;绿色版打开就可以使用~ Bandicam录屏&#xff08;PC&#xff09; Bandicam录屏是一款专为捕捉屏幕精彩瞬间而设计的…