国内外主流大模型都具备有哪些特点?

文章目录

  • ⭐ 火爆全网的大模型起点
  • ⭐ 国外主流LLM及其特点
  • ⭐ 国内主流LLM及其特点
  • ⭐ 全球大模型生态的发展

该章节呢,我们主要是看一下关于国内外主流的大语言模型,通过它们都具备哪些特点,来达成对多模型有一个清晰的认知。对于 “多模型” 的 “多” ,大家一定要有个概念,很多小伙伴只知道 “ChatGPT” ,或者是只知道国内的一些大模型,对国外的大模型不是特别了解,所以该章节就提炼总结一下。

⭐ 火爆全网的大模型起点

目前市面上所有的大模型其实最早的时候,都是基于谷歌的 “Transformer技术” 也就是 “Transformer架构” 来设计的。大概在2017年的时候,谷歌发布了它的 T5模型 ,后续以 T5 为代表的各种大语言模型逐渐的衍生出来。包括 GPT3GML130B ,以 Facebook 为代表的、开源的 LLaMa ,后来的 GPT4 ,以及中东的科研机构开发的 Falcon ,还有最新的 GPT4 的版本,包括多态模型、最新的大窗口模型,这些都是最近在更新的。



下图中所展示的大模型,就是经过简单提炼后所得出的结果,实际上市面上的大模型数量远不止于此,毕竟这是一个千模竞争的时代。左边所展示的主要是国外的一些常见的大模型, 右边的是国内的一些厂商的大模型。



从发布时间上来看,国外的这些大模型的发布要比我们国内早一些,基本上大家能说得上来名字、使用频率比较多的大模型都是在 2023年 的时候才开始发布的,整体上国内还是比国外的技术积累、水平、时间还是稍微落后的。

⭐ 国外主流LLM及其特点

先看国外的,比如 GPT-2 ,大概有15亿的训练参数。可能很多小伙伴对这里所谓的 参数 不是很理解,其实 “参数” 代表了一个模型的复杂程度,参数越大,就表示模型需要的容量空间和算力就非常的大,相应的能力也就会越强;相反,参数越小、需要的算力也就越小,能力就相对弱一些,能力的强弱主要是通过回答与提炼问题来体现的,在使用的过程中也能够体现出来。



  • Google 的T5 大概有110亿的参数,最显著的特点就是可以 多任务微调,关键它还是开源的。
  • OpenAI的GPT3.5 出现之后在市面上所带来的效果是非常惊人的,效果反馈也非常的好,它的参数更是达到了 1750亿 ,所需要的算力是之前很多模型的很多倍,相较于其他模型,GPT3.5的一个显著特点就是支持人工反馈的微调。
  • 随后就是 Facebook 出台的 Meta OPT 模型,大概也是 1750亿 的参数,底模也是英文的。也就说,这个大模型在预训练的时候,使用的是大量的英文材料,所以在处理一些英文的问题时候,回答响应的会非常的好。
  • LLaMA 的中文名字叫 “羊驼” ,熟悉开源的小伙伴可能对这个大模型比较的熟悉,它是目前比较主流且知名的开源大模型框架,在目前的开源大模型里面,参数比较大、效果比较好的开源大模型之一,一度被开发者评选为最受欢迎的大模型。
  • 关于 GPT-4 ,其实从参数上我们也可以看出来,号称是史上最强大模型,参数足足有 1.8万亿,之所以在全球范围内这么火爆,不是没有原因的。最新版的GPT-4 虽然在参数上没有太大的变化,但是底模的数量相较于之前的版本也得到了大大的增加。
  • VIcuna-13BFalcon 这里就不做过多的介绍了,一个是开源的聊天机器人,一个是阿联酋先进技术研究委员会做出来的大模型。

从上面的介绍也可以看到,国外的这些大模型基本上都是 底模都是以英文为主 ,GPT-4其实也是以英文为主,但是因为它的底模足够的大,有使用到中文的语料去进行预训练。GPT-3和GPT-3.5涵盖了几乎所有互联网上2021年之前公开的知识,最新的GPT-4知识库更新到了了2023年。

⭐ 国内主流LLM及其特点



国内的主流大模型我们就简单的了解一下就好,毕竟咱们现在能排得上号的大模型简直太多了,据统计有3个或更多的机构发布了大模型的省和直辖市的地区都超过10个了,这还是2023年11月份之前统计的数据,相信现在的数量绝对更多。



  • 首先就是由王小川开源的 “百川智能”,这个大模型的参数有 70亿,所以从参数的体量上来对比的话,相当于是 LLaMA 这样的大模型的一个水平。
  • 百度的 文心一言 就相对来说大了很多了,在大模型上百度的投入还是非常大的,参数要超过2600亿,“文心大模型” 最显著的一个特点就是它所使用的 中文语料占据了85%
  • 阿里的 通义千问 的参数在 70亿~700亿 ,总体的能力从参数上看相当于是 GPT3 ,相对来说略差了一些。
  • ChatGLM6B 大概是 60亿 的参数,这里需要重点介绍一下的是,ChatGLM6B 的研究团队是清华大学的团队是国内、也是国际上 10B以下最强的中文开源项目,是 100亿参数以下 效果最好的大模型。
  • 腾讯的 混元大模型 没有公布具体的参数,但是业界内的专家猜测其参数 超过了千亿 ,其核心特点就是 支持多模态多模态 的意思就是不仅支持文本生成,还支持图像生成,文生图、图生文的意思。这就意味着 混元大模型 的底模、参数和预训练更加的复杂化,不仅会训练文字,也会训练图片。
  • MOSS 的参数有 160亿 ,是一款支持 多插件 的开源大模型;AquilaPolyLM 这里也就不再过多的进行介绍了,Aquila 是首个中文数据合规的大模型,PolyLM则是对整个亚洲包括汉语在内的亚洲语种很友好的大模型。

国内的这些大模型大家可以看出来什么?没错,第一就是发布时间,几乎都是2023年发布的大模型,第二个就是对中文的支持非常的友好,要比海外的哪些大模型友好的非常多。

商用 的角度来看待这些大模型的话,有一些开源模型在商业的层面,效果不是特别的理想。比如说很多基于 LLaMA 实现的大模型,就是不支持商业场景的;但是清华团队研发的 ChatGLM6B 就是可以支持商用的,包括 百川智能、Falcon 这些都是支持商用,而且目前商用的效果还是非常不错的。

⭐ 全球大模型生态的发展

从以上的内容,我们也可以看出目前确实是属于一个由OpenAI 引爆的 “百模大战”、“千模大战”、“多模型大战” 的竞争局势。我们可以从 Hugging Face (中文名:抱脸)看一下,目前全球开源的大模型究竟有多少,可以更直观的了解当前大模型的一个现状。(HuggingFace相当于是大模型领域的GitHub)

Hugging Face我们可以看到很多开源的大模型,它会将目前已知的开源大模型进行开源,大家千万不要觉得这是多此一举,相信当你知道目前已知的开源大模型的数量接近 六十万 的时候,就不会这么觉得了。



Hugging Face 所收集的大模型涵盖了很多层面,从 图生文文生图 ,再到计算机视觉,从 语言分类 再到 文本分类 ,翻译、音频处理… 各种各样的大模型应有尽有。除了有很多支持的第三方库之外,还提供有大量的用于训练的数据集。(包括世界上所有的主流语言)



所以,我们可以看到整个 大模型的发展 还是非常的快的,生态也是非常的繁荣的。出了非常多之外,每个大模型也都具备有自己的特色。后续的内容也将会是以主流的大模型为主,比如说 LangChain ,毕竟六十多万的大模型也太吓人了。

好了,今天的内容就到这里了,下一章节将会为大家介绍一下 大模型的不足之处以及对应的解决方案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/6982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

帮助命令

1.man 原意:manual 所在路径:/usr/bin/man 执行权限:所有用户 语法:man [命令或配置文件] 功能描述:获得帮助信息 例:$ man ls 查看ls命令的帮助信息 查看命令的帮助主要是看这个命令是干什么用的&am…

Vue3+.NET6前后端分离式管理后台实战(十七)

1,Vue3.NET6前后端分离式管理后台实战(十七)已经在微信公众号更新,有兴趣的扫码关注一起交流学习。

数据治理:数据孤岛是企业信息化发展中难以避免的阶段

随着信息技术的飞速发展,企业对于数据的依赖程度日益加深。在这个过程中,数据治理成为了企业信息化建设的核心环节。然而,在实际操作中,企业往往会遇到一种难以避免的现象——数据孤岛。 一、数据孤岛的定义与成因 数据孤岛&…

电磁兼容(EMC):产品适用静电放电(ESD)标准全解

目录 1. 标准体系 2. 试验方法标准 3. 常见产品的抗扰度标准 自己研发的产品到底需要满足什么样的静电放电标准要求才是满足国家标准要求。客户提出的静电放电接触放电4kV,空气放电8kV要求,是高于国家标准要求还是低于国家标准要求?面对这…

PyCharm 2024新版图文安装教程(python环境搭建+PyCharm安装+运行测试+汉化+背景图设置)

名人说:一点浩然气,千里快哉风。—— 苏轼《水调歌头》 创作者:Code_流苏(CSDN) 目录 一、Python环境搭建二、PyCharm下载及安装三、解释器配置及项目测试四、PyCharm汉化五、背景图设置 很高兴你打开了这篇博客,如有疑问&#x…

类的流插入与流提取

1.自定义类型不能直接使用流插入与流提取 为什么内置类型可以直接使用流插入与流提取? 其实本质上是人家已经写好了相关的函数,内置类型可以直接调用cout与cin 对于自定义类型,我们需要自己写相关的函数。 2.解决方法 2.1自己在类里面写一个…

Microsoft Remote Desktop Beta for Mac:远程办公桌面连接工具

Microsoft Remote Desktop Beta for Mac不仅是一款远程桌面连接工具,更是开启远程办公新篇章的利器。 它让Mac用户能够轻松访问和操作远程Windows计算机,实现跨平台办公的无缝衔接。无论是在家中、咖啡店还是旅途中,只要有网络连接&#xff0…

鸿蒙UI复用

鸿蒙UI复用 简介BuilderBuilder的使用方式一Builder的使用方式二Builder的使用方式三 Component使用Component复用UI 简介 在页面开发过程中,会遇到有UI相似的结构,如果每个UI都单独声明一份,会产生大量冗余代码,不利于阅读。遇到…

Python头歌合集(题集附解)

目录 一、Python初识-基本语法 第1关:Hello Python! 第2关:我想看世界 第3关:学好Python 第4关:根据圆的半径计算周长和面积 第5关:货币转换 二、turtle简单绘图 第1关:英寸与厘米转换 第2关&#xff1…

vue-cli+vue3+vite+ts 搭建uniapp项目全过程(一)

unapp官方提供了cli 脚手架创建 uni-app 项目的文档 Vue3/Vite版要求 node 版本 18、20使用Vue3/Vite版创建不会提示选择模板,目前只支持创建默认模板 本文以vue3vitets为例 1、初始化项目 npx degit dcloudio/uni-preset-vue#vite-ts my-vue3-project 执行完生成…

037——加入Kconfig机制

目录 一、什么是Kconfig 1.1 由来 1.2 功能 二、 Kconfig的基本语法 2.1 Kconfig 构建项目解析 2.2 怎么调用子makefile做menuconfig 方法一:使用make命令直接调用子目录 方法二:使用变量来指定子目录 方法三:使用include指令包含子…

Java openrasp记录-02

主要分析以下四个部分: 1.openrasp agent 这里主要进行插桩的定义,其pom.xml中定义了能够当类重新load时重定义以及重新转换 这里定义了两种插桩方式对应之前安装时的独立web的jar的attach或者修改启动脚本添加rasp的jar的方式 其中init操作则需要将ras…

大数据技术主要学什么,有哪些课程

大数据技术是指在海量数据的环境下,采集、存储、处理、分析和管理数据的一系列技术与方法。随着互联网、物联网以及各种智能设备的普及,数据量呈爆炸性增长,传统数据处理手段已难以应对,因此大数据技术应运而生,旨在从…

加州大学欧文分校英语中级语法专项课程04:Intermediate Grammar Project学习笔记(完结)

Intermediate Grammar Project Course Certificate Specialization Certificate Specialization Intro Course Intro 本文是学习 Coursera: Intermediate Grammar Project 这门课的学习笔记。 文章目录 Intermediate Grammar ProjectWeek 01: IntroductionCapstone Introducti…

论文笔记:DeepMove: Predicting Human Mobility with Attentional Recurrent Networks

WWW 2018 1 Intro 根据对百万级用户群的研究,93%的人类移动是可预测的。 早期的mobility预测方法大多基于模式的。 首先从轨迹中发现预定义的移动模式(顺序模式、周期模式)然后基于这些提取的模式预测未来位置。最近的发展转向基于模型的方法进行流动性预测。 利用…

力扣:62. 不同路径

62. 不同路径 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 问总共有多少条不同的路径&…

五一假期后,必读的10篇大模型论文

1.同时预测多个 token:更好更快的大型语言模型 目前,GPT 和 Llama 等大型语言模型(LLMs)都是通过下一个 token 预测损失来训练的。 在这项工作中,来自 Meta FAIR 的研究团队认为,训练语言模型同时预测多个…

用 Go map 要注意这个细节,避免依赖他!

有的小伙伴没留意过 Go map 输出、遍历顺序,以为它是稳定的有序的,会在业务程序中直接依赖这个结果集顺序,结果栽了个大跟头,吃了线上 BUG。 有的小伙伴知道是无序的,但却不知道为什么,有的却理解错误? 今…

PADS 规则设置-导线不跟随器件-导线允许回路

1、PADS Layout中设置拖动器件时导线不跟着移动 2、PADS Router中设置走线允许回路

【隧道篇 / WAN优化】(7.4) ❀ 01. 启动WAN优化 ❀ FortiGate 防火墙

【简介】几乎所有的人都知道,防火墙自带的硬盘是用来保存日志,以方便在出现问题时能找到原因。但是很少的人知道,防火墙自带的硬盘其实还有另一个功能,那就是用于WAN优化。 防火墙自带的硬盘 在FortiGate防火墙A、B、C、D系列&…