大语言模型-LLM简介

       大语言模型如此火爆,查了些资料整理一下,做个初步的了解。

        语言模型的发展从开始的统计方法到使用神经网络,再到现在通过使用Transformer架构的模型训练大量数据,理解文本规则和模式,同时随着训练数据和模型的扩大,语言模型的能力提升显著,此时大语言模型出现了-LLM。

        相比于之前的明星模型-BERT,虽然大预言模型使用的架构和预训练任务相似,但参数数量级的提升使他们有了质的差别。BERT的参数为3.3亿,GPT-2为15亿,而GPT-3则有1750亿参数。此时GPT-3相比之前的模型,就有解决少样本任务的能力了,这种能力可称为涌现能力

LLM的独特能力

        上下文学习:语言模型在获得指令或任务示例时,通过上下文生成答案,此时不需要额外训练或更新参数。

        指令微调:LLM可以处理未见过的任务,泛化能力强大。

        推理能力:LLM可通过中间推理步骤的提示机制解决中间的任务得到最终的答案。

LLM的特点

        模型规模大:参数通常在数十亿,甚至千亿规模,这也是大模型可以获取更多信息的基础。

        预训练和微调:LLM使用大量无标签文本数据做预训练,获取通用的知识,再通过微调在单独任务重获得更好的效果。         

        上下文理解:可解决小模型对前文理解不足的问题。

        支持多模态:LLM可支持图像、声音等内容的扩展。

现有的大模型

        LLM大放异彩是从OpenAI发布ChatGPT开始的,后面还有Claude、PaLM、Bard等,但由于网络原因,并不好用,而且还需要国际支付以获取user key,国内使用不是很友好。

        国内的LLM主要有文心一言、讯飞星火、通义千问等,分别由百度、讯飞、阿里推出。放开测试后只需手机号就能使用,但有些功能需要收费了。

LangChain

        一个开源工具,帮助开发者调用大模型并应用于下游任务,其为LLM提供了通用接口,简化开发流程。

        主要有六个标准接口:

        Input/Output:用户输入及模型输出的结果

        Data:将自由数据输入模型训练

        Chain:链接多个LLM或组件

        Memory:对每个用户生成短期记忆,加强对上文的理解

        Agent:为LLM提供计算、检索等功能的支持

        Callback:记录流程信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/136575.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Brain Teaser概率类 - 三局两胜制

问题 三局两胜制比赛,两局结束还是三局结束的概率大? 解答 假设每局比赛的结果是独立同分布的,且遵循伯努利分布,其中一方的胜率为p,另一方为1-p. 则两局结束的概率是 p 2 ( 1 − p ) 2 ≥ 0.5 p^2 (1-p)^2 \geq …

GIT的安装与常见命令

Git的介绍 Git是一个开源的分布式版本控制系统,最初由Linus Torvalds在2005年创建用于管理Linux内核的开发,现在已成为全球最流行的版本控制工具之一。 Git可以跟踪代码的修改,记录开发历程,保证多人合作开发时代码的一致性&…

如何在Android平板上远程连接Ubuntu服务器code-server进行代码开发?

文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 1.ubuntu本地安装code-server 准备一台虚拟机,Ubuntu或者centos都可以,这里以VMwhere ubuntu系统为例 下载code serve…

探索人工智能领域——30个名词详解

目录 前言 正文 总结​​​​​​​ 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Filotimo__✍️原创,首发于CSDN📚。 📣如需转载,请…

微信小程序:js实现不改变原数组的情况下增加一条对象到新数组中

效果 核心 old_array.slice(0) 表示对 old_array 这个数组进行切片操作,从索引 0 开始(包括索引 0),直到数组的末尾,old_array.slice(0) 中的 0 表示开始切片的索引位置,而由于没有传入第二个参数&#xff…

电商项目之Java8函数式接口落地实践

文章目录 1 问题背景2 前言3 多处重复的重试机制代码4 优化后的代码5 进一步优化 1 问题背景 在电商场景中,会调用很多第三方的云服务,比如发送邮件、发起支付、发送验证码等等。由于网络存在抖动,有时候发起调用后会拿到500的状态码&#xf…

C现代方法(第19章)笔记——程序设计

文章目录 第19章 程序设计19.1 模块19.1.1 内聚性与耦合性19.1.2 模块的类型 19.2 信息隐藏19.2.1 栈模块 19.3 抽象数据类型19.3.1 封装19.3.2 不完整类型 19.4 栈抽象数据类型19.4.1 为栈抽象数据类型定义接口19.4.2 用定长数组实现栈抽象数据类型19.4.3 改变栈抽象数据类型中…

Code Review最佳实践

Code Review最佳实践 Code Review 我一直认为Code Review(代码审查)是软件开发中的最佳实践之一,可以有效提高整体代码质量,及时发现代码中可能存在的问题。包括像Google、微软这些公司,Code Review都是基本要求&…

Hive的时间操作函数

目录 前言函数使用介绍实际使用判断该天是星期几判断该天对应的周(包含一周开始和结束) 前言 hive 里面的时间函数有很多,今天单讲dayofweek函数,背景:有时候不仅要出日报,还要出周报,需要很多…

uniapp 下载文件到手机

下载后端传递过来的文件 let thil this uni.showLoading({title: 下载中,mask:true }) uni.downloadFile({url: 接口地址, //仅为示例,并非真实的资源header: {"Authorization": token},responseType: blob,success: (res) > {if (res.statusCode 2…

什么是网络爬虫?

网络爬虫是一种自动化程序,可以自动地浏览网站并从网站上抽取数据。APP数据抓取实际上也是运用了网络爬虫的技术,只不过抓取的对象不是网站上的信息,而是手机APP上的数据。下面详细介绍APP数据抓取的过程。 1、确定数据需求 首先需要明确要抓…

【数据结构】树与二叉树(七):二叉树的遍历

文章目录 5.1 树的基本概念5.1.1 树的定义5.1.2 森林的定义5.1.3 树的术语5.1.4 树的表示 5.2 二叉树5.2.1 二叉树1. 定义2. 特点3. 性质引理5.1:二叉树中层数为i的结点至多有 2 i 2^i 2i个,其中 i ≥ 0 i \geq 0 i≥0。引理5.2:高度为k的二叉…

代挂单页网址发布页+加盟代理+APP下载页源码

代挂单页加盟代理网址发布页app下载页HTML单页版本,自行修改源码内文字。自行修改联系方式、登录地址!上传即可使用。源码我已全部打包好,直接上传本站提供的源码,无后台,直接访问即可! 源码下载&#xff…

EF Core 数据库映射成实体类

首先在 NuGet 包管理器中安装三个包 Microsoft.EntityFrameworkCore.SqlServer 是一个用于与 SQL Server 数据库进行交互的实体框架核心包。这个包提供了方便的方法和工具,用于在 .NET Core 应用程序中操作 SQL Server 数据库。 Microsoft.EntityFrameworkCore.Too…

fmx windows 下 制作无边框窗口最小化最大化并鼠标可拖移窗口

1,最顶端 放一个rectangle 置顶 ,此区域后面实现鼠标拖动 移动窗口,可在上面放置最大,最小,关闭按钮 2,窗口边框模式 设置 none 3,rectangel mousemove事件 uses Winapi.Windows,Winapi.Messages,FMX.Platform.Winprocedure TfrmMain.Rectangle1MouseMove(Sender: TObje…

[直播自学]-[汇川easy320]搞起来(3)看文档安装软件 查找设备

2023.11.09 20:04 按照文档 解压压缩包得到: 打开 里面有一条值得注意: 想把软件安装到C盘,但是C盘没什么空间了,把C盘清理清理。 20:35 安装很快完成,然后阅读 由于PLC是新的&#xff0c…

Postgresql数据类型-布尔类型

前面介绍了PostgreSQL支持的数字类型、字符类型、时间日期类型,这些数据类型是关系型数据库的常规数据类型,此外PostgreSQL还支持很多非常规数据类型,比如布尔类型、网络地址类型、数组类型、范围类型、json/jsonb类型等,从这一节…

Bean作用域

从笔者之前的博客,我们可以看出 Spring 是⽤来读取和存储 Bean,因此在 Spring 中 Bean 是最核⼼的操作 资源,所以接下来我们深⼊学习⼀下 Bean 对象:Bean作用域! 限定程序中变量的可用范围叫做作用域!或者…

三相桥式整流器设计与谐波分析

摘 要 三相桥式整流器应用广泛,比如电力系统、电机以及电子设备等行业。更高效率和更小体积的三相桥式整流器一直是研究的热点。在我们日常生活中, 三相桥式整流器随处可见,因为其相比其他整流器而言结构相对简单,运行稳定且便于…

scss 实用教程

变量 $ 定义变量 $link-color: blue;变量名可以与css中的属性名和选择器名称相同 使用变量 a {color: $link_color; }$highlight-border: 1px solid $link_color;中划线和下划线相互兼容,即中划线声明的变量可以使用下划线的方式引用,反之亦然。 $li…