LLM - 大语言模型(LLM) 概述

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/136617643

LLM

大语言模型(LLM, Large Language Model)的发展和应用是一个非常广泛的领域,涉及从早期的统计模型到现代基于深度学习的模型。在自然语言处理领域的应用非常广泛,包括但不限于聊天机器人、内容生成、情感分析、自动摘要、问答系统等。强大的文本生成能力,使其在内容创作领域具有巨大潜力,可以用于撰写文章、创作诗歌、生成新闻报道等。也可以为教育提供丰富的资源和工具,如自动评分、个性化学习辅导等,还可以用于构建智能客服系统,提高客户服务的响应速度和准确性。

以下是语言模型发展的4个阶段:

  1. 早期发展: 最初的语言模型基于统计方法和简单的神经网络,如循环神经网络(RNN)。这些模型在文本生成、机器翻译和语音识别等领域有所应用。
  2. Transformer架构: 随着Transformer架构的提出,语言取得了重大进展。Transformer提供了一种有效的方法来处理长距离依赖问题,并且在处理大量数据时表现出色。
  3. 预训练-微调范式: 研究者提出了预训练-微调(Pretraining-Finetuning)范式,通过在大量无标签数据上预训练模型,然后在特定任务上进行微调,以提高模型在特定任务上的表现。
  4. 多模态: 近年来,多模态大语言模型成为研究热点,这类模型不仅处理文本,还能理解图像和声音等其他类型的数据。

总的来说,大语言模型的发展推动了人工智能在理解和生成自然语言方面的能力,为各种应用提供了强大的支持。

LLM


1. 大语言模型概念

概念

世界科学发展的5个范式是对科学研究方法演变的概括,每个范式代表了一种独特的研究方法和科学理解的方式,即:

  1. 经验范式:这是最古老的科学范式,依赖于直接观察自然现象并从中获取知识。不依赖于复杂的理论,而是基于实验和经验的积累。
  2. 理论范式:随着数学和逻辑的发展,科学家开始使用理论模型来解释观察到的现象。这个范式包括了像牛顿运动定律这样的经典理论。
  3. 计算范式:计算机的出现使得科学家能够解决以前无法手工计算的复杂问题。这个范式依赖于数值模拟和计算机仿真。
  4. 数据范式:在大数据时代,科学研究开始依赖于收集、存储和分析大量数据。这个范式利用统计和机器学习方法来从数据中提取知识。
  5. 科学智能范式:这是最新的范式,结合了人工智能技术,特别是深度学习,来加速科学发现。利用AI来模拟和预测复杂系统的行为,有时甚至可以发现新的科学规律。

这些范式并不是相互排斥的,而是相辅相成,共同推动科学进步。


2. 大语言模型发展

Development
大语言模型的三种主要架构,即Encoder-Only、Decoder-Only、Encoder-Decoder,各有其特点和应用场景:

  1. Encoder-Only架构:
    • 这种架构专注于输入文本的理解,通常用于分类、实体识别或其他需要理解文本含义的任务。
    • 通过编码器处理输入文本,提取特征,然后用于下游任务。
    • 例如,BERT(Bidirectional Encoder Representations from Transformers)就是一个典型的Encoder-Only模型。
  2. Decoder-Only架构:
    • Decoder-Only架构专注于生成文本,适用于语言生成任务,如文本续写、创作等。
    • 通过解码器从给定的上下文中生成下一个单词或序列。
    • GPT(Generative Pretrained Transformer)系列模型是Decoder-Only架构的代表。
  3. Encoder-Decoder架构:
    • 这种架构结合了编码器和解码器的优点,能够理解输入文本并生成相应的输出。
    • 通常用于需要理解和生成文本的任务,如机器翻译、文本摘要等。
    • GLM(General Language Model)模型就是一个典型的Encoder-Decoder架构。

每种架构都有其独特的优势。


3. 大语言模型构建

构建流程

构建大型语言模型(LLM)的过程通常包括以下4个步骤:

  1. 预训练(Pretraining): 在这一阶段,模型在大规模的数据集上进行训练,以学习语言的基本规则和模式。这些数据集通常包含了广泛的主题和语言风格。
  2. 有监督微调(Supervised Fine Tuning, SFT): 预训练完成后,模型会在特定任务的数据集上进行微调。这些数据集是有标签的,即每个输入数据都有一个正确的输出,模型通过这些数据学习执行特定的任务。
  3. 奖励建模(Reward Modeling): 在这个阶段,模型会学习如何根据给定的奖励信号来优化其行为。这通常涉及到从人类反馈中学习,以便模型能够更好地满足用户的需求。
  4. 强化学习(Reinforcement Learning, RL): 最后,模型通过强化学习进一步优化,这是一种让模型通过试错来学习的方法。模型会在模拟环境中进行实验,根据其行为的结果来调整策略,以最大化奖励。

这个流程是迭代的,模型可能会经过多轮的预训练、微调和优化,以不断提高其性能和适应性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/746326.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI+CAD】(二)LLM和VLM生成结构化数据结构(PPT/CAD/DXF)

当前LLM和VLM在PPT生成任务上已经小有成效,如ChatPPT。 @TOC 1. PPT-LLM LLM根据用户的instruction生成规范的绘制ppt的API语句:即使是最强的GPT-4 + CoT也只能达到20-30%的内容准确度。 LLM输入:User_instruction(当前+过去)、PPT_content、PPT_reader_API。其中 PPT_rea…

面试经典150题——随机链表的复制

​前两天断更了两天有点事情🤗 1. 题目描述 2. 题目分析与解析 2.1 思路一 开始还是没什么思路,没思路那就先把题目解决不管方法的好坏。如果不考虑复杂度,该怎么解决? 可以有这样的一种思路: 首先复制链表的所有节…

【python绘图】turle 绘图基本案例

文章目录 0. 基础知识1. 蟒蛇绘制2. 正方形绘制3. 六边形绘制4. 叠边形绘制5. 风轮绘制 0. 基础知识 资料来自中国mooc北京理工大学python课程 1. 蟒蛇绘制 import turtle turtle.setup(650, 350, 200, 200) turtle.penup() turtle.fd(-250) turtle.pendown() turtle.pen…

jeesite列表jqGrid表格底部汇总,基于onSelectRow和onSelectAll实现选中行汇总合计

一、最终效果图 二、表格启用复选框并初始化赋值 onSelectAll: function() { calc_sum(); }, onSelectRow: function() { calc_sum(); },// 加载成功后执行事件 ajaxSuccess: function(data){var dy = 0;var glbzqmrsdtyg = 0;var glbzqmrsschyg = 0;var glbzqmrsqtcy …

【贪心算法】Leetcode 55. 跳跃游戏

【贪心算法】Leetcode 55. 跳跃游戏 解法1解法2 ---------------🎈🎈55. 跳跃游戏 题目链接🎈🎈------------------- 解法1 关键点在于:不用拘泥于每次究竟跳几步,而是看覆盖范围,覆盖范围内…

Python 语法及入门 (超全超详细) 专为Python零基础 一篇博客让你完全掌握Python语法

前言: 本篇博客超级详细,请尽量使用电脑端结合目录阅读 阅读时请打开右侧 “只看目录” 方便阅读 一、什么是Python 1.1 Python的诞生 1989年,为了打发圣诞节假期,Gudio van Rossum吉多 范罗苏姆(龟叔)决…

Gitee配置SSH登录

一、背景 新入手的电脑,需要对Gitee上存放的项目进行更改上传,发现上传不了需要登录,便采用SSH密钥进行登录,防止远程管理工程中的信息泄露 二、前提 电脑已下载Git Bash工具,在项目下点击鼠标右键,进入…

Linux 中搭建 主从dns域名解析服务器

CSDN 成就一亿技术人! 作者主页:点击! Linux专栏:点击! CSDN 成就一亿技术人! ————前言———— 主从(Master-Slave)DNS架构是一种用于提高DNS系统可靠性和性能的配置方式。…

opencv人脸识别实战3:多线程和GUI界面设计(PyCharm实现)

一、多线程设计 1、在一个新线程中调用了 scan_face() 函数来进行人脸识别操作。根据识别结果,更新界面显示结果,最后释放资源。 def f_scan_face_thread():var.set(刷脸)ans scan_face()if ans 0:print("最终结果:无法识别")va…

《互联网的世界》第七讲-能源

本想聊聊 tcp 和 quic,但这些都属于术的范畴,变化多端,等孩子们长大了又不知变成什么样子了,趁这段时间在家,还是得讲一些相对不变的东西,或法或势。 从 安阳卖血糕的精巧篦子 想到如何做圆米粉和圆面条&a…

【管理咨询宝藏39】某四大咨询公司D记PPT模板

本报告首发于公号“管理咨询宝藏”,如需阅读完整版报告内容,请查阅公号“管理咨询宝藏”。 【管理咨询宝藏39】某四大咨询公司D记PPT模板 【格式】PPT版本,可编辑, 【关键词】PPT模板,PPT图表 【文件核心观点】 - 2…

什么是分段锁?

1、典型回答 分段锁是一种将锁细化到每个段(Segment) 级别的锁设计。在 ConcurrentHashMap 中,它将整个数据结构分成多个段,每个段只锁定自己的一部分数据。每个段可以看作是一个独立的分组,只锁定该段(Segment)内部的数据操作,不…

OJ_八皇后

题干 C实现 深度优先遍历&#xff0c;注意回溯打表法&#xff1a;先求出所有解&#xff0c;再存入一个容器中 #define _CRT_SECURE_NO_WARNINGS#include <iostream> #include <vector>using namespace std;vector<vector<int>> queenVec;//用来存在所…

2024年中国AI服务器行业发展

环洋咨询Global Info Research的AI服务器市场调研报告提供AI服务器市场的基本概况&#xff0c;包括定义&#xff0c;分类&#xff0c;应用和产业链结构&#xff0c;同时还讨论发展政策和计划以及制造流程和成本结构&#xff0c;分析AI服务器市场的发展现状与未来市场趋势&#…

Flink通讯模型—Akka与Actor模型

Carl Hewitt 在1973年对Actor模型进行了如下定义&#xff1a;"Actor模型是一个把Actor作为并发计算的通用原语". Actor是异步驱动&#xff0c;可以并行和分布式部署及运行的最小颗粒。也就是说&#xff0c;它可以被分配&#xff0c;分布&#xff0c;调度到不同的CPU&…

操作系统总结(第二周 第一堂)

前言&#xff1a; 第一周的重点就在于一张图表&#xff1a; 基于这张图&#xff0c;我们将陷入内核分为了两个大块Trap和Interrupt。同时我们知道一件事情任何一次I/O操作或者错误程序操作都将陷入内核&#xff0c;从而使得内核可以监控所有的外部设备以及维护整个电脑程序运行…

C语言 --- 指针(5)

目录 一.sizeof和strlen对比 1.sizeof 2.strlen 3.strlen 和sizeof的对比 二.数组和指针笔试题目详解 回顾&#xff1a;数组名的理解 1.一维数组 2.字符数组 代码1&#xff1a; 代码2&#xff1a; 代码3&#xff1a; 代码4&#xff1a; 代码5&#xff1a; 代码6&am…

【智能算法】白鲨算法(AVOA)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.代码实现4.参考文献 1.背景 2022年&#xff0c;Braik 等人受到白鲨捕食行为启发&#xff0c;提出了非洲秃鹫优化算法(White Shark Optimizer, WSO)。 2.算法原理 2.1算法思想 海洋中白鲨拥有敏锐的感知、听觉和嗅觉&#xf…

第110讲:Mycat实践指南:指定Hash算法分片下的水平分表详解

文章目录 1.应用指定Hash算法分片的概念2.使用应用指定Hash算法分片对某张表进行水平拆分2.1.在所有的分片节点中创建表结构2.2.配置Mycat实现应用指定Hash算法分片的水平分表2.2.1.配置Schema配置文件2.2.2.配置Rule分片规则配置文件2.2.3.配置Server配置文件2.2.4.重启Mycat …

前置机的使用以及个跳板机介绍

前言 前置机、网闸和摆渡机都是为了内网安全&#xff0c;尤其是银行、券商、电信运营商等的内网核心后台系统的安全&#xff0c;而使用的技术手段。跳板机和堡垒机则是为了运维人员远程访问控制系统而搭建的机器。 一、前置机 1. 作用 前置机&#xff0c;指代的是设置在后台系…