“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?

图片

5 月 9 日,在通义大模型发布一周年之际,阿里云大模型生态迎来一次重大升级,主要有“四个最”:

  • 通义千问 2.5 正式发布,“模型性能全面赶超 GPT-4 Turbo,成为地表最强中文大模型”;
  • Qwen1.5-110B 参数开源模型在多个基准测评收获最佳成绩,超越 Llama-3-70B,成为开源领域最强中文大模型;
  • ModelScope 魔搭成为中国最大的开源社区;
  • 通义大模型通过阿里云服务企业超 9 万,成最受中国企业欢迎大模型。

同时,阿里云对通义大模型的品牌也进行了升级,正式将“通义千问 APP”更名为“通义 APP”,集成通义大模型全栈能力,免费为所有用户提供服务。阿里表示,通义 APP 将把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“All in one”,成为每个人的全能 AI 助手。

图片

大模型系列更新

从初代模型升级至 2.5 版本的路,阿里云仅仅走了一年。

去年 10 月底,阿里云 CTO 周靖人在 2023 年云栖大会上,发布了参数量提升到千亿级别的通义千问 2.0。当时,阿里表示,目前通义千问的综合性能已经超过 GPT-3.5,相比 4 月发布的 1.0 版本,通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。

如今,相比通义千问 2.1 版本,通义千问 2.5 的理解能力、逻辑推理、指令遵循、代码能力分别提升了 9%、16%、19%、10%。在权威基准 OpenCompass 上,通义千问 2.5 得分追平 GPT-4 Turbo,这也是该基准首次录得国产大模型取得如此出色的成绩。

在这里插入图片描述

在多模态模型和专有能力模型方面,通义千问视觉理解模型 Qwen-VL-Max 在多个多模态标准测试中超越 Gemini Ultra 和 GPT-4V,目前已在多家企业落地应用。

通义还发布了最新款开源模型:1100 亿参数的 Qwen1.5-110B,该模型在 MMLU、TheoremQA、GPQA 等基准测评中超越了 Meta 的 Llama-3-70B 模型。在 HuggingFace 推出的开源大模型排行榜 Open LLM Leaderboard 上,Qwen1.5-110B 冲上榜首。

在这里插入图片描述

“生态非常重要,我们会坚持开源体系、坚持我们的开源模式。”周靖人透露。

“现在已经是 2024 年了,我相信开源对整个全球技术领域的贡献是毋庸置疑的。”周靖人说道,“阿里云不是简简单单的开源,我们是要开源最强的模型。”

去年 8 月,通义宣布加入开源行列,随之启动马不停蹄的开源狂飙,沿着“全模态、全尺寸”开源路线陆续推出十多款模型。小尺寸模型如 0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC 等端侧设备部署;大尺寸模型如 72B、110B 能支持企业级和科研级的应用,都曾登顶 Open LLM Leaderboard 榜首。

“阿里云是全球唯一一家既持续做模型开发,又做大量模型开局模式的企业。”周靖人表示,Llama 3 等在一定程度上把竞争拉得很高。坦诚地讲,不是所有闭源的公司都能做过开源模型。做闭源的,至少要能够超过开源模型水准,才能今天有机会参与。另一方面,实践中,大模型能力并不是越强越好,还要考虑成本等方面因素,所以阿里云希望把选择权给到企业和开发者。

通义千问代码大模型 CodeQwen1.5-7B 则是 HuggingFace 代码模型榜单 Big Code 的头名选手,具备优秀的代码生成能力、长序列建模能力、代码修改能力和 SQL 能力,还是国内用户规模第一的智能编码助手通义灵码的底层模型。

现场,阿里还宣布推出通义灵码的企业版,满足企业用户的定制化需求,帮助企业提升研发效率。

据介绍,通义灵码熟练掌握 Java、Python、Go、JavaScript、TypeScript、C/C++、C# 等 200 多种编程语言,可以辅助写代码、读代码、查 Bug、优化代码等。根据官方数据,2023 年 10 月发布至今,通义灵码的插件下载量已超 350 万,每日推荐代码超 3000 万次,被开发者采纳的代码超亿行。

“最受中国企业欢迎的大模型”

在这里插入图片描述

根据阿里云公布的最新数据,通义大模型通过阿里云服务企业超 9 万,通义开源模型累计下载量突破 700 万。通义落地应用进程加速,现已进入 PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,成为最受中国企业欢迎的大模型。

周靖人表示,各行各业、各个企业都是特殊的,非常明确的就是让基础模型直接对接业务需求是很难的,因此现在的大模型落地一定要结合业务的场景。

小米旗下的人工智能助手“小爱同学”已与阿里云通义大模型达成合作,强化其在图片生成、图片理解等方面的多模态 AI 生成能力,并在小米汽车、手机等多类设备落地。此外,微博、众安保险、完美世界游戏等企业也宣布接入通义大模型,将大模型应用于社交媒体、保险、游戏等领域。

更早之前,新东方、同程旅行、长安汽车、西部机场集团、亲宝宝等企业也都与通义大模型达成合作。中国科学院国家天文台人工智能组基于通义千问开源模型开发了新一代天文大模型“星语 3.0”,这是大模型首次应用于天文观测领域;陕煤建新煤矿等十余座矿山推出由通义大模型支持的新型矿山重大风险识别处置系统,成为大模型在矿山场景的首次规模化落地。

截至目前,通义大模型通过阿里云服务企业超过 9 万、通过钉钉服务企业超过 220 万。与此同时,海内外大量中小企业和开发者以下载开源模型的方式使用通义,在 HuggingFace、魔搭 ModelScope 等开源社区,通义开源大模型的累计下载量超过了 700 万。

在阿里云体系里,把模型能力和业务场景结合起来的纽带就是百炼平台。本次大会上,百炼升级成为阿里云承载云 +AI 能力的重要平台,提供一站式、全托管的大模型定制与应用服务。开发者可通过“拖拉拽”5 分钟开发一款大模型应用,几小时“炼”出一个专属模型,把精力专注于应用创新。

在这里插入图片描述

周靖人介绍,当下企业应用大模型存在三种范式:一是对大模型开箱即用,二是对大模型进行微调和持续训练,三是基于模型开发应用,其中最典型的需求是 RAG,以企业数据对大模型进行知识增强。围绕这些需求,百炼打造了模型中心和应用中心,提供最丰富的模型和最易用的工具箱。

百炼提供了提示词模版、拥抱开源框架,包括提供开放灵活可配置的检索增强应用服务、提供实时 API 等,此外还提供可视化流程,提供微调和评测。

此外,百炼集成了上百款大模型,除了通义、Llama、ChatGLM 等系列,还托管百川等系列三方模型,覆盖国内外主流厂商,联动魔搭开源社区,同时支持企业上架通用或行业模型,给开发者提供足够多的模型选择。

结束语

问世一年多来,通义大模型发展出了文生图、智能编码、文档解析、音视频理解等能力,企业客户和开发者可以通过 API 调用、模型下载等方式接入通义,个人用户可从通义 APP、官网和小程序免费使用通义家族全栈服务。

未来,阿里云的 AI 之路会走得如何,我们也拭目以待。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/10310.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卷积特征图与感受野

特征图尺寸和感受野是卷积神经网络中非常重要的两个概念,今天来看一下,如何计算特征尺寸和感受野。 特征图尺寸 卷积特征图,是图片经过卷积核处理之后的尺寸。计算输出特征的尺寸,需要给出卷积核的相关参数包括: 输…

PC端与bluetooth蓝牙虚拟串口通信

应该采用RFCOMM虚拟串口方式来进行通信,原理跟socket通信类似,不同的是使用的通信协议不同,本人结合相关的API,做了以下最简单的封装。 1、获取本地蓝牙设备与附近蓝牙设备信息 2、通信类 /* 通信类:只是对于客户端通…

抽空学学go

2024年5月9日11:14:24 学习go 看课8小时转职Golang工程师(如果你想低成本学习Go语言)_哔哩哔哩_bilibili 文档[8小时转职Golang工程师 (yuque.com)]( 1.安装go 2024年5月9日11:27:16 2.安装 vscode go配置环境 vs code配置go开发环境 (zhihu.com) vscode里面配置代理&…

全志ARM-SG90舵机

控制转角 向黄色信号线“灌入”PWM信号。 PWM波的频率不能太高,50hz,即周期1/频率1/500.02s,20ms左右数据: 不同的PWM波形对应不同的旋转角度,以20ms为周期,50hz为频率的PWM波 定时器需要定时20ms,关心的单…

vue阶段案例,练习filter、map、forEach,双向绑定,三元表达式,以及图片滚动,文字跳动等等。

阶段案例 通过案例来练习双向绑定&#xff0c;三元表达式&#xff0c;以及图片滚动&#xff0c;文字跳动等等。 代码如下&#xff1a; <template><table class"bjtp" ><div class"title" >{{title}}</div><div class"s…

【解决Android Studio】cmake报错找不到vulkan包

1 报错信息 CMake Error at D:/Android/project/cmake/3.10.2.4988404/share/cmake-3.10/Modules/FindPackageHandleStandardArgs.cmake:137 (message): Could NOT find Vulkan (missing: Vulkan_LIBRARY) Call Stack (most recent call first): 2. 错误原因 minSdk版本不对&am…

18.Blender 渲染工程、打光方法及HDR贴图导入

HDR环境 如何导入Blender的HDR环境图 找到材质球信息 在右上角&#xff0c;点击箭头&#xff0c;展开详细部分 点击材质球&#xff0c;会出现下面一列材质球&#xff0c;将鼠标拖到第二个材质球&#xff0c;会显示信息 courtyard.exr 右上角打开已渲染模式 左边这里选择世界…

动作识别 slowfast动作识别项目记录

动作识别 slowfast动作识别项目记录

如何在自己的服务器上快速搭建第一个网站(其一)

根据上篇文章相信很多人以及成功搭建服务器啦。今天我们讲下如何在自己的服务器快速搭建第一个网站的一些重要配置&#xff0c;以及搭建网站的必备环境。干货满满&#xff0c;希望大家能够关注点赞收藏。 我会不定期更新一些实用的工具&#xff0c;欢迎大家私信评论喔&#xf…

12个网上赚钱野路子信息差,人人可做的赚钱小项目!

在这个多元化的时代&#xff0c;副业已经成为许多人增加收入、实现自我价值的重要途径。今天&#xff0c;我们就来聊聊那些既有趣又能赚钱的副业项目&#xff0c;让你的钱包鼓起来&#xff01; 1.文字创作 写作不仅是情感的宣泄&#xff0c;更是财富的积累。无论是自媒体文、软…

事件代理 浅谈

事件代理是一种将事件处理委托给父元素或祖先元素来管理的技术。当子元素触发特定事件时&#xff0c;该事件不会直接在子元素上进行处理&#xff0c;而是会冒泡到父元素或祖先元素&#xff0c;并在那里进行处理。这样做的好处是可以减少事件处理函数的数量&#xff0c;提高性能…

VR智慧文旅:开启“韵味”旅游季的新篇章

为了充分满足游客的假日文化旅游需求&#xff0c;各地纷纷“解锁”新花样&#xff0c;沉浸式实景观展震撼“出圈”。在数字化浪潮的推动下&#xff0c;文化旅游行业正经历着变革&#xff0c;在万物皆可沉浸的时代&#xff0c;VR智慧文旅燃起了不一样的热度。 许多业内人士认为&…

Tiff文件解析和PackBits解压缩

实现了Tiff图片文件格式的解析&#xff0c;对Tiff文件中的PackBits压缩格式进行解压缩&#xff0c;对Tiff文件中每一个Frame转换成BufferedImage显示。 Java语言实现&#xff0c;Eclipse下开发&#xff0c;AWT显示图片。 public static TIFF Parse(final byte[] bytes) throw…

排序算法(Java版)

目录 1、直接插入排序2、希尔排序3、直接选择排序4、堆排序5、冒泡排序6、快速排序6.1 递归实现6.2 非递归实现 7、归并排序7.1 递归实现7.2 非递归实现 8、性能分析 今天我们学习一种算法&#xff1a;排序算法&#xff08;本文的排序默认是从小到大顺序&#xff09;&#xff0…

渗透思考题

一&#xff0c;尝试登录。 客户端对密码进行哈希处理并缓存密码hash&#xff0c;丢弃实际的明文密码&#xff0c;然后将用户名发送到服务器&#xff0c;发起认证请求 密文存储位置&#xff1a;数据库文件位于C:WindowsSystem32configsam&#xff0c;同时挂载在注册表中的HKLMSA…

C语言【文件操作 1】

文章目录 1.为什么使用文件2.文件是什么&#xff1f;2.1程序文件2.2数据文件 3.二进制文件和文本文件4.文件的打开和关闭4.1流和标准流流标准流 4.2文件指针4.3文件的打开和关闭 结语 1.为什么使用文件 很简单 长久的存储数据 如果没有文件&#xff0c;我们写程序所产生的数据…

【小红书采集工具】根据搜索关键词批量采集小红书笔记,含笔记正文、笔记链接、发布时间、转评赞藏等

一、背景介绍 1.1 爬取目标 熟悉我的小伙伴都了解&#xff0c;我之前开发过2款软件&#xff1a; 【GUI软件】小红书搜索结果批量采集&#xff0c;支持多个关键词同时抓取&#xff01; 【GUI软件】小红书详情数据批量采集&#xff0c;含笔记内容、转评赞藏等&#xff0c;支持…

【C++】string类的使用①(默认成员函数 || 迭代器接口begin,end,rbegin和rend)

&#x1f525;个人主页&#xff1a; Forcible Bug Maker &#x1f525;专栏&#xff1a; STL || C 目录 前言&#x1f308;关于string类&#x1f308;string类的成员函数&#x1f525;默认成员函数string类对象的构造(constructor)string类对象的析构string类对象的赋值运算符…

NPOI生成word浮动图标

1、NPOI版本2.7.0, net框架4.8 2、安装OpenXMLSDKToolV25.msi 3、先创建一个word文档&#xff0c;并设置图片为浮于文字之上 4、OpenXML显示的结果 5、实际代码如下&#xff1a; public class GenerateWordDemo {public GenerateWordDemo(){}//https://blog.fileformat.co…

前端笔记-day03

文章目录 01-初始CSS02-CSS引入方式03-标签选择器04-类选择器05-id选择器06-通配符选择器07-画盒子08-字体大小09-文字粗细10-字体倾斜11-行高12-行高垂直居中13-字体族14-font复合属性15-文本缩进16-文本对齐方式17-图片对齐方式18-文本修饰线19-文字颜色20-调试工具21-综合案…