啥是大模型

介绍完了chatGPT的生成原理, 那么我们继续介绍介绍大模型。
大模型的缩写是LLM,全称是Large Language Model, 所以这个大模型也可以被称作为大语言模型
那么问题来了,为啥有了大模型呢,难道之前都是小模型吗?确实,大模型刚开始就是因为参数大,训练数据多所以就叫做大模型,在大模型之前的模型参数和训练数据相比之下确实小,这解释了大模型中的大字,那么模型两字该如何理解呢?是我们所说的数学模型、软件系统中的软件模型还是说科学研究中的理论假设或者时尚界的诸如实物的模型呢?要搞清楚模型,那么我们就得从机器学习开始说起。

一:机器学习

机器学习,顾名思义就是让计算机自己去学习并存储对应的知识,然后帮助人类去做一些工作。比如常见的人脸识别就是给到计算机足够多的人脸照片,然后让他识别出来对应的人脸是谁。大家可能好奇这后面是如何实现的,可以想一想我们初中学习的二元一次方程 y=kx+b, 我们如果要解出来这个方程,我们是不是要给到两个点的x,y 坐标就可以得出来k和b并解答出来这个方程,这个y=kx+b 就是我们上面所说的最最简单的模型,就是方程组。
当然现实世界中比这个一元二次方程组复杂的多,可能是n元n次方程组,那么我们就要给到相应的坐标点和相应的数学方法去对这个方程求解,但是万变不离其宗,理论上给到足够多的好的输入和输出,就是对应的x和y值,计算机就可以得到很精确的模型,帮助我们解决掉一些问题。通俗点来说,把这个通过投喂数据给计算机并且让它自己推导出来方程或者叫模型的过程就叫做机器学习。

二:监督学习和无监督学习

上面我们讲到了x和y, 有一个x就必定有对应的y,有多少个x就有多少个对应的y,所以这种有一方输入必定有对应的输出的机器学习就叫做监督学习,比如我们常见的图像分类或者说一些诸如天气和股票的预测的学习都是这样的;但是当我们有一群x,不知道对应的y,让机器自己去看这些x应该输出怎样的y,诸如我们生活中常见的那个把不一样的橘子分成不同的堆等,我们分的时候没有瞄准的目标,只能自己心里去大概看看这些橘子可以分成几类,这样的有输入但是不知道输出的机器学习就可以叫做无监督学习;

三:强化学习

强化学习,可以这么理解,就是对应的某个领域的初步模型已经推导出来了,但是还有一些对应的场景它可能给出的答案不是很正确,但是经过我们测试人员的反馈,告诉它某些答案应该是怎么样的,让它自己知道对应的这个场景顺便去微调模型可以达到更好的适应,这不就是说这个模型对现实世界的适应性得到了更大的加强么,我们生活中强化学习运用比较多的领域是智能体,比如生活中的机器人

四:深度学习

深度学习,这里的深度可以理解成为模型的层数,为什么这样说呢?因为我们的现实世界中的一些场景是很复杂的,光靠上述的诸如y=ax1+bx2+cx3+dx4+…+nxn 很难适配这样的场景,既然一个这样的模型不行,那么来很多个函数呢,一个函数的输出作为另一个函数的输入,互相交叉,一个函数对应下游的多个函数,这样n*m 个函数不就构成了一张网么,在ai中也称之为人工神经网络,这里的一个个函数就像我们的大脑里的神经元似的,神经元互相之间构成了我们的神经网络,哈哈哈,数学是理解万物的语言不是吹的。
所以,我们可以假设好一个神经网络,然后给一堆样本和对应的结果,让机器不舍昼夜地自己去一步步地推导出这些个神经网络对应的每个神经元的模型,最终凑成了一个大的神经网络,这样的过程那就叫做深度学习了。

五:大模型

所以,大模型里面的那个模型就是我们所说的数学模型了,只不过不是单一的数学函数,是n多个复杂的数学函数的集合,大模型其实就是深度学习所对应的神经网络的数学模型集合了,是具有海量参数的模型集合,为啥之前深度学习出现了之后没有立马出现大模型呢,一个是当时对应的算力和数据不够充分,更大一部分是谷歌的那篇transformer的论文没有出现,哈哈哈,要知道原因且听下回分解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL字符串截取函数——Left()、Right()、Substring()用法详解

SQL字符串截取函数——Left()、Right()、Substring()用法详解 1. LEFT() 函数:从字符串的左侧提取指定长度的子字符串。 LEFT(string, length)string:要操作的字符串。length&#x…

C# 服务调用RFC函数获取物料信息,并输出生成Excel文件

这个例子是C#服务调用RFC函数,获取物料的信息,并生成Excel文件 上接文章:C#服务 文章目录 创建函数创建结构编写源代码创建批处理文件运行结果-成功部署服务器C#代码配置文件注意!! 创建函数 创建结构 编写源代码 创建…

打开idea开发软件停留在加载弹出框页面进不去

问题 idea软件点击打开,软件卡在加载弹框进不去。 解决方法 先进入“任务管理器”停止IDEA的任务进程 2.找到IDEA软件保存的本地数据文件夹 路径都是在C盘下面:路径:C:\Users\你的用户名\AppData\Local\JetBrains 删除目录下的文件夹&…

sqlserver sql转HTMM邮件发送

通过sql的形式,把表内数据通过邮件的形式发送出去 declare title varchar(100) DECLARE stat_date CHAR(10),create_time datetime SET stat_dateCONVERT(char(10),GETDATE(),120) SET create_timeDATEADD(MINUTE,-20,GETDATE()) DECLARE xml NVARCHAR (max) DECLAR…

用语言模型 GLM-Zero-Preview 来驱动战场推演

起源是一个验证性需求 如果告诉模型武器装备与战区背景 那么我们能不能推演在有限规模下的两军博弈场景 需求分析:明确推演目标 推演目的:你希望通过推演来分析两军在特定战区背景下的博弈局面,例如评估双方武器装备的对抗效果、作战策略的选…

Linux:各发行版及其包管理工具

相关阅读 Linuxhttps://blog.csdn.net/weixin_45791458/category_12234591.html?spm1001.2014.3001.5482 Debian 包管理工具:dpkg(低级包管理器)、apt(高级包管理器,建立在dpkg基础上)包格式:…

Java项目实战II基于小程序的驾校管理系统(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、核心代码 五、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。 一、前言 随着汽车保有量的不断增长,驾驶培训市场日…

小程序租赁系统开发的优势与应用探索

内容概要 在如今这个数码科技飞速发展的时代,小程序租赁系统开发仿佛是一张神奇的魔法卡,能让租赁体验变得顺畅如丝。想象一下,无论你需要租用什么,从单车到房屋,甚至是派对用品,只需动动手指,…

AAAI2025:这也能融合?巧用多坐标系融合策略,PC-BEV实现点云分割170倍加速,精度显著提升!

引言:本文提出了一种基于鸟瞰图(BEV)空间的激光雷达点云分割方法,该方法通过融合极坐标和笛卡尔分区策略,实现了快速且高效的特征融合。该方法利用固定网格对应关系,避免了传统点云交互中的计算瓶颈&#x…

java接口下载zip,不生成中间文件,返回前端文件流

java接口下载zip,不生产中间文件,返回前端文件流 程序设计:代码实现: 程序设计: 前端向后端请求zip文件,zip文件中有多个文件压缩而成,后端操作文件流,而不生成中间文件。最后把zip…

在 pandas.Grouper() 中,freq 参数用于指定时间频率,它定义了如何对时间序列数据进行分组。freq 的值可以是多种时间单位

在 pandas.Grouper() 中,freq 参数用于指定时间频率,它定义了如何对时间序列数据进行分组。freq 的值可以是多种时间单位,具体包括以下几类: 常见的时间频率 (freq) 取值: 1. 日频率(Daily) …

java下载文件流,不生成中间文件。

java下载文件流,不生成中间文件。 代码设计:代码实现 代码设计: 从前端获取的数据经过后端加工后,生成文件流,并返回前端,(不生成中间文件,注意内存,记得关闭流&#xf…

【代码】Python|Windows 批量尝试密码去打开加密的 Word 文档(docx和doc)

文章目录 前言完整代码Githubdocxdoc 代码解释1. msoffcrypto 方法(用于解密 .docx 文件)read_secret_word_file 函数密码生成与解密尝试try_decrypt_file 函数 2. comtypes 方法(用于解密 .doc 文件)read_secret_word_file 函数注…

职场常用Excel基础04-二维表转换

大家好,今天和大家一起分享一下excel的二维表转换相关内容~ 在Excel中,二维表(也称为矩阵或表格)是一种组织数据的方式,其中数据按照行和列的格式进行排列。然而,在实际的数据分析过程中,我们常…

python-redis访问指南

Redis(Remote Dictionary Server)是一种开源的内存数据结构存储,可用作数据库、缓存和消息代理。它功能强大且灵活,可根据需求调整架构和配置,以高性能、简单易用、支持多种数据结构而闻名,广泛应用于各种场…

MySQL锁的概念

锁的基本概念 锁在 MySQL 中是一种并发控制机制,它确保在多用户或多事务环境下数据的完整性和一致性。当多个事务同时访问和操作数据库中的数据时,为了防止数据出现不一致、丢失更新、脏读、不可重复读和幻读等问题,就需要使用锁来协调这些事…

Java-多种方法实现多线程卖票

Java多线程卖票是一个经典的并发编程问题,它展示了如何在多个线程之间安全地共享和修改资 源。以下是几种实现方式: 使用synchronized关键字: 使用synchronized修饰符来同步方法或代码块,确保同一时刻只有一个线程可以访问临界区(即操 作共享资源的代码)。 使用Reen…

Px4 V2.4.8飞控Mavlink命令控制说明

首先,可以使用两种方法连接飞控,使用虚拟机(LINUX)或使用地面站(QGC)连接。 在px4的代码文件位置打开命令终端,输入连接命令: ./Tools/mavlink_shell.py 在控制台使用help来获取所有…

【Vue3】h、ref:vue3的两个新特性(重要)-h和ref

h、ref:vue3的两个新特性-重要 h 函数( createElement)ref 函数总结 在 Vue 3 中,h 和 ref 是两个非常重要的函数,它们在框架的运行和组件的创建中扮演着关键角色。在 Vue 3 中,这两个函数是构建现代 Vue 应…

MySQL8安装与卸载

1.下载mysql MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/ 2.解压mysql安装包 解压到自己定义的目录,这里解压就是安装,解压后的路径不要有空格和中文。 3.配置环境变量 配置环境变量可以方便电脑在任何的路径…