LLM大模型从入门到精通(3)--LLM主流大模型类别

目录

1 ChatGLM-6B模型简介:

2 LLaMA模型简介:

3 BLOOM模型简介

4 Baichuan-7B模型

        随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。开源语言大模型种类有以下4个:

1 ChatGLM-6B模型简介:

        ChatGLM-6B 是清华大学提出的一个开源、支持中英双语的对话语言模型,基于General LanguageModel (GLM) 架构,具有 62 亿参数.该模型使用了和 ChatGPT 相似的技术,经过约 1T 标识符的中英双语训练(中英文比例为1:1),辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答(目前中文支持最好).

        GLM是一种基于自回归空白填充目标的通用预训练框架. GLM 将 NLU 任务转化为包含任务描述的完形填空问题,可以通过自回归生成的方式来回答.

        原理:在输入文本中随机挖去一些连续的文本片段,然后训练模型按照任意顺序重建这些片段.

        完形填空问题是指在输入文本中用一个特殊的符号(如[MASK])替换掉一个或多个词,然后训练模型预测被替换掉的词.

优点:较低的部署门槛: INT4 精度下,只 需6GB显存,使得 ChatGLM-6B 可 以部署在消费级显卡上进行推理.  更长的序列长度: 相比 GLM-10B (序列长度1024),ChatGLM2-6B 序列长度达32K,支持更长对话和应 用。  人类类意图对齐训练。

缺点:模型容量小,相对较弱的模型记忆和语言能力。 多轮对话能力较弱。

模型配置(6B)与硬件要求:

2 LLaMA模型简介

        LLaMA(Large Language Model Meta AI),由 Meta AI 于2023年发布的一个开放且高效的大型基础语言模型,共有 7B、13B、33B、65B(650 亿)四种版本. LLaMA训练数据是以英语为主的拉丁语系,另外还包含了来自 GitHub 的代码数据。训练数据以英文为主,不包含中韩日文,所有训练数据都是开源的。其中LLaMA-65B 和 LLaMA-33B 是在 1.4万亿 (1.4T) 个token上训练的,而最小的模型 LLaMA-7B 和LLaMA-13B 是在 1万亿 (1T) 个 token 上训练的.

LLaMA 的训练目标是语言模型,即根据已有的上文去预测下一个词

优点 : 具有 130 亿参数的 LLaMA 模型 「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿).  可以在单块 V100 GPU 上运行; 而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla70B 和 PaLM-540B.

缺点:会产生偏见性、有毒或者虚假的内容.  在中文上效果差,训练语料不包含中文或者一个汉字切分为多个token,编码效率低,模型学习难度大.

模型配置(7B)与硬件要求:

3 BLOOM模型简介

        BLOOM系列模型是由 Hugging Face公司训练的大语言模型. 训练数据包含了英语、中文、法语、西班牙语、葡萄牙语等共 46 种语言,另外还包含 13 种编程语言. 1.5TB 经过去重和清洗的文本,其中中文语料占比为16.2%. 按照模型参数量,BLOOM 模型有 560M、1.1B、1.7B、3B、7.1B 和 176B 这几个不同参数规模的模型.

BLOOM 的训练目标是语言模型,即根据已有的上文去预测下一个词

优点:具有良好的多语言适 应性,能够在多种语 言间进行切换,且无 需重新训练.

缺点:会产生偏见性、有毒或者虚假的内容.

模型配置(176B)与硬件要求

4 Baichuan-7B模型

        Baichuan-7B由百川智能于2023年6月发布的一个开放且可商用的大型预训练语言模型,其支持中英双语,是在约 1.2万亿 (1.2T) 个 token上训练的70亿参数模型.

Baichuan-7B 的训练目标也是语言模型,即根据已有的上文去预测下一个词。

模型配置(7B)与模型特点:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/871048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营Day37||动态规划part05

初识完全背包,和零一背包的区别就是要正序遍历背包,从而让物品可以反复使用。 518.零钱兑换II: 即装满价值为j的背包有几种方法,和494目标和几乎一致,只不过换成了零一背包。通过不同的遍历顺序,可以求出组合数&#…

Java常用的API_02(正则表达式、爬虫)

Java正则表达式 七、正则表达式7.1 格式7.1.1 字符类注意字符类示例代码1例2 7.1.2 预定义字符预定义字符示例代码例2 7.1.3 区别总结 7.2 使用Pattern和Matcher类与直接使用String类的matches方法的区别。(1) 使用Pattern和Matcher类示例代码 &#xff…

分布式系统—Ceph块存储系统(RBD接口)

目录 一、服务端操作 1 创建一个名为 rbd-xy101 的专门用于 RBD 的存储池 2 将存储池转换为 RBD 模式 3 初始化存储池 4 创建镜像 5 管理镜像 6.Linux客户端使用 在管理节点创建并授权一个用户可访问指定的 RBD 存储池 ​编辑修改RBD镜像特性,CentOS7默认情…

Transformer模型:WordEmbedding实现

前言 最近在学Transformer,学了理论的部分之后就开始学代码的实现,这里是跟着b站的up主的视频记的笔记,视频链接:19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili 正文 首先导入所需要的包:…

useRef和useState的区别

在React中,useRef和useState都是Hooks,它们用于在函数组件中添加React状态,但它们的用途和行为有所不同: useState useState用于在函数组件中添加可变状态。它让你能够保存和管理随时间变化的数据。它返回一个数组,包…

离线安装docker-compse

离线安装 Docker Compose 可以通过以下步骤完成: 下载 Docker Compose 二进制文件: 首先,你需要在一个可以访问互联网的机器上下载 Docker Compose 的二进制文件。你可以使用以下命令来下载: sudo curl -L "https://github.c…

云WAF在电子商务领域具体能提供哪些安全功能?

云WAF(Cloud Web Application Firewall)在电子商务领域提供了一系列关键的安全功能,以保护在线交易平台免受各种网络攻击和威胁。以下是云WAF能够提供的具体安全功能: 实时流量监控与分析:云WAF能够对电子商务网站的流…

Matlab结合ChatGPT—如何计算置信区间?

​前面分享了带置信区间的折线图和带置信区间的折线散点图的绘图教程: 很多人表示,昆哥,图是很好看啦,但咱不会求置信区间啊,咋办嘞? 说实话,这种事情属于数据处理,一般都是在画图前…

家政服务小程序:提高家政服务,新商机!

当下,社会生活的节奏非常快,人们忙于工作,在日常生活家务清洁中面临着时间、精力不足的问题,因此对家政服务的需求日益增加,这也推动了家政行业的迅速发展。目前不少年轻人都开始涌入到了家政行业中,市场的…

HTTP协议。(HTTP-概述和特点、HTTP-请求协议、HTTP-请求数据格式、浏览器访问服务器的几种方式)

2.1 HTTP-概述 HTTP协议又分为:请求协议和响应协议 请求协议:浏览器将数据以请求格式发送到服务器 包括:请求行、请求头 、请求体 响应协议:服务器将数据以响应格式返回给浏览器 包括:响应行 、响应头 、响应体 2.…

重要!!!MySQL 9.0存在重大BUG!!

7/11日开源数据库软件服务商percona发布重要警告,最新的mysql版本存在重大bug,原文如下 Do Not Upgrade to Any Version of MySQL After 8.0.37 Warning! Recently, Jean-Franois Gagn opened a bug on bug.mysql.com #115517; unfortunately, the bug…

CT金属伪影去除的去噪扩散概率模型| 文献速递-基于深度学习的多模态数据分析与生存分析

Title 题目 A denoising diffusion probabilistic model for metal artifact reduction in CT CT金属伪影去除的去噪扩散概率模型 01 文献速递介绍 CT图像中的金属伪影是在CT扫描视野内存在金属物体(如牙科填充物、骨科假体、支架、手术器械等)时出…

探索Java网络编程精髓:UDP与TCP的实战魔法!

Java 中提供了专门的网络编程程序包 java.net,提供了两种通信协议:UDP(数据报协议)和 TCP(传输控制协议),本文对两种通信协议的开发进行详细介绍。 1 UDP 介绍 UDP:User Datagram Pr…

css横向滚动条支持鼠标滚轮

在做视频会议的时候&#xff0c;标准模式视图会有顶部收缩的一种交互方式&#xff0c;用到了横向滚动&#xff1b;一般情况下鼠标滚轮只支持竖向滚动&#xff0c;这次写个demo是适配横向滚动&#xff1b; 效果图展示 实现横向滚动条顶部显示 <div className{style.remote_u…

已知经纬度坐标,评价数据空间分布均匀性

文章目录 基本介绍1. 可视化分析使用Python的matplotlib和Basemap库&#xff1a; 2. 统计检验使用Python的scipy库进行Kolmogorov-Smirnov检验&#xff1a; 3. 空间分析技术使用Python的geopandas和sklearn库进行核密度估计&#xff1a; 调用函数1. 可视化分析函数2. 统计检验函…

如何在Linux系统下安装Anaconda

安装步骤 一、在Linux服务器下获取Anaconda安装包二、启动Anaconda安装程序三、修改PATH环境变量四、验证Anaconda是否安装成功 最近课题组实验室又新购了两台服务器&#xff0c;需要重新部署深度学习环境才能使用&#xff0c;但我突然发现自己不太记得Anaconda具体的安装过程了…

【YOLO格式的数据标签,目标检测】

标签为 YOLO 格式&#xff0c;每幅图像一个 *.txt 文件&#xff08;如果图像中没有对象&#xff0c;则不需要 *.txt 文件&#xff09;。*.txt 文件规格如下: 每个对象一行 每一行都是 class x_center y_center width height 格式。 边框坐标必须是 归一化的 xywh 格式&#x…

nginx正向代理和反向代理

nginx正向代理和反向代理 正向代理以及缓存配置 代理&#xff1a;客户端不再是直接访问服务器&#xff0c;通过代理服务器访问服务端。 正向代理&#xff1a;面向客户端&#xff0c;我们通过代理服务器的IP地址访问目标服务端。 服务端只知道代理服务器的地址&#xff0c;真…

CRC32简述

CRC32简述 crc32 通常指的是 CRC-32&#xff08;Cyclic Redundancy Check 32-bit,即循环冗余检查&#xff09;算法&#xff0c;而 foobar 是一个示例字符串&#xff0c;用来作为 CRC-32 算法的输入。CRC-32 是一种广泛使用的循环冗余校验&#xff08;CRC&#xff09;算法&#…

面试题 21. 调整数组顺序使奇数位于偶数前面

调整数组顺序使奇数位于偶数前面 题目描述示例 题解 题目描述 输入一个整数数组&#xff0c;实现一个函数来调整该数组中数字的顺序&#xff0c;使得所有奇数在数组的前半部分&#xff0c;所有偶数在数组的后半部分。 示例 输入&#xff1a;nums [1,2,3,4] 输出&#xff1a;…