什么是大型语言模型(LLM)?

大型语言模型 (LLM) 是一种能够理解和生成人类语言文本的机器学习模型。它们通过分析大量语言数据集来工作。

一、什么是大型语言模型 (LLM)?

大型语言模型 (LLM) 是一种人工智能 (AI) 程序,它可以识别和生成文本以及完成其他任务。LLM 经过了庞大的数据集的训练,因此称之为“大型”。LLM 在机器学习的基础上构建:具体来说,它是一种称为 Transformer 模型的神经网络。

简单地说,LLM 是一个计算机程序,已经为它提供了足够多的示例,使它能够识别和解释人类语言或其他类型的复杂数据。许多 LLM 都是使用从互联网上收集的数据(成千上万甚至数百万 GB 的文本)进行训练的。但是,样本的质量会影响 LLM 学习自然语言的效果,因此 LLM 的程序员可能会使用更精心策划的数据集。

LLM 使用一种称为深度学习的机器学习来了解字符、单词和句子是如何共同发挥作用的。深度学习涉及对非结构化数据进行概率分析,最终使深度学习模型能够在无需人工干预的情况下识别不同内容之间的区别。

接着,在调整后进一步训练 LLM:根据程序员希望它们完成的特定任务进行微调或提示调整,例如解释问题并生成回答,或者将文本从一种语言翻译成另一种语言。

二、LLM 有什么用途?

可以训练 LLM 以执行多种任务。最广为人知的用途之一是将它作为生成式 AI 应用:当为它们提供提示或向它们提出问题时,它们可以生成文本作为回复。例如,公开提供的 LLM ChatGPT 可根据用户输入生成散文、诗歌和其他文本形式。

任何大型复杂数据集都可用于训练 LLM,包括编程语言。有些 LLM 可以帮助程序员编写代码。它们可以根据要求编写函数,或者以一些代码为起点,完成一个程序的编写。LLM 也可用于以下领域:

  • 情绪分析
  • DNA 研究
  • 客户服务
  • 聊天机器人
  • 在线搜索

现实世界中的 LLM 包括 ChatGPT (OpenAI)、Bard (Google)、Llama (Meta) 和 Bing Chat (Microsoft),国内的商量、通义千问、文心一言等。GitHub 的 Copilot 是另一个例子,但它用于编码而不是人类的自然语言。

三、LLM 有哪些优势和局限性?

LLM 的一个主要特点是能够响应不可预测的查询。传统的计算机程序接收使用它接受的语法提供的命令,或者接收用户提供的一组输入中的命令。视频游戏有一组有限的按钮,应用程序有一组有限的用户可以单击或输入的物件,而编程语言则由精确的 if/then 语句组成。

相比之下,LLM 可以响应人类的自然语言,并利用数据分析合理回答非结构化问题或提示。一般的计算机程序不能识别类似于“历史上最伟大的四支放克乐队是哪四支?”这样的提示,而 LLM 可能会列出四支此类乐队作答,并提供令人信服的理由说明为什么他们是最伟大的。

不过,就提供的信息而言,LLM 的可靠性取决于它们获取的数据。如果向它们提供虚假信息,它们就会在回答用户询问时提供虚假信息。LLM 有时也会“产生幻觉”:当它们无法提供准确答案时,它们会制造虚假信息。例如,在 2022 年,新闻媒体 Fast Company 向 ChatGPT 询问
特斯拉公司上一季度的财务状况;虽然 ChatGPT 提供了一篇连贯的新闻文章作为回复,但其中的许多信息都是编造的。

在安全方面,基于 LLM、面向用户的应用程序与其他应用程序一样容易出现错误。还可以通过恶意输入操纵 LLM,使其提供某些类型的响应,而不是其他类型的响应,包括危险或不道德的响应。最后,LLM 的安全问题之一是,用户可能为了提高自己的工作效率而将安全的机密数据上传到 LLM 中。但是,LLM 使用它们接收到的输入来进一步训练它们的模型,但是它们在设计上没有安全保险库功能;它们可能会在响应其他用户的查询时公开机密数据。

四、LLM 如何工作?

4.1 机器学习和深度学习

从根本上说,LLM 是在机器学习的基础上构建的。机器学习是 AI 的一个分支;机器学习是指向一个程序提供大量数据,以训练这个程序如何在没有人工干预的情况下识别数据特征的做法。

LLM 使用称为深度学习的机器学习类型。深度学习模型基本上可以在没有人工干预的情况下自行训练识别区别,尽管通常需要一些人工微调。

深度学习利用概率进行“学习”。例如,在句子 "The quick brown fox jumped over the lazy dog" 中,字母 "e" 和 "o" 最常见,各出现四次。根据这一点,深度学习模型可以(正确)得出结论,这些字符是最有可能出现在英语文本中的字符。

实际上,深度学习模型无法从一句话中得出任何结论。但是,在分析了数以万亿计的句子之后,它可以学到足够的知识来预测如何在逻辑上补全一个不完整的句子,甚至生成它自己的句子。

4.2 神经网络

为了实现这种类型的深度学习,LLM 在神经网络的基础上构建。正如人脑是由相互连接和发送信号的神经元组成一样,人工神经网络(通常简称为“神经网络”)也是由相互连接的网络节点组成的。它们由多个“层”组成:输入层、输出层以及这两个层之间的一个或多个层。各层只有在自己的输出超过某个阈值时,才会相互传递信息。

4.2.1 Transformer 模型

用于 LLM 的特定神经网络称为 Transformer 模型。Transformer 模型能够学习上下文,这对于高度依赖语境的人类语言尤为重要。Transformer 模型使用一种名为自注意力机制的数学技术来检测序列中元素相互之间的微妙关系。这使得它们比其他类型的机器学习更善于理解上下文。例如,这使它们能够理解句子的结尾与开头之间的联系,以及段落中各个句子相互之间的关系。

这使 LLM 能够解释人类语言,即使这些语言含糊不清或定义不明确,以它们以前从未遇到过的组合方式排列,或以新的方式结合上下文。在某种程度上,它们“了解”语义,因为它们可以根据词语和概念的含义将两者联系起来,因为它们已经数百万或数十亿次看到过这些词语和概念以这种方式组合在一起。

图片来源:What are Large Language Models? | Definition from TechTarget

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/755527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(vue)Module Error (from ./node_modules/eslint-loader/index.js)

(vue)Module Error (from ./node_modules/eslint-loader/index.js) 方法1:直接关闭eslint // vue.config.js module.exports {lintOnSave: false, //关闭eslint语法检查...... }方法2: 参考:解决参考 解决参考:如何修复vue-cli…

Ollama 运行 Cohere 的 command-r 模型

Ollama 运行 Cohere 的 command-r 模型 0. 引言1. 安装 MSYS22. 安装 Golang3. Build Ollama4. 运行 command-r 0. 引言 Command-R Command-R 是一种大型语言模型,针对对话交互和长上下文任务进行了优化。它针对的是“可扩展”类别的模型,这些模型在高…

uniapp+uview 学习笔记(二)—— H5开发

文章目录 前言一、开发步骤1.创建项目2.安装组件库并导入使用3.封装请求4.国际化5.打包 总结 前言 本文主要介绍使用uniapp框架和uview组件库进行H5开发,需要用到的开发工具为HBuilder X。 一、开发步骤 1.创建项目 打开HBuilder X,在顶部栏目选择 新…

网络安全框架和云安全参考架构介绍

目录 一、网络安全框架 1.1 概述 1.2 IATF框架 1.2.1 框架来源 1.2.2 框架结构图 1.2.3 框架内容 1.2.3.1 人(People) 1.2.3.2 技术(Technology) 1.2.3.3 操作(Operation) 1.3 NIST网络安全框架 …

javaAPI操作Elasticsearch

mapping属性 mapping是对索引库中文档的约束, 常见的mapping属性包括: type: 字段数据类型,常见的简单类型有: 字符串: text(可分词的文本), keyword(精确值, 例如: 品牌,国家)数值: long, integer, short, byte, double, float布尔: boolean日期: date对象: object index: 是否…

Hive 数据迁移与备份

迁移类型 同时迁移表及其数据(使用import和export) 迁移步骤 将表和数据从 Hive 导出到 HDFS将表和数据从 HDFS 导出到本地服务器将表和数据从本地服务器复制到目标服务器将表和数据从目标服务器上传到目标 HDFS将表和数据从目标 HDFS 上传到目标 Hiv…

FX110网:“炒金热”再现,汇友却被困在了假冒万洲金业!

近日,一汇友炒金就选错了平台,他交易的“万洲金业”不对劲! 在假冒“万洲金业”反复折腾 据汇友描述,他此前经朋友指导,下载了一个“万洲金业”的APP,该平台宣称为香港金银业贸易场AA类141号行员&#xff0…

在Linux系统安装MySQL步骤

准备工作:下载好mysql(Mariadb)安装包: 第一步:检查系统中是否有自带的MySQL(Mariadb); # 下面这两个都执行一下 [rootcentos101 opt]# rpm -qa | grep mysql [rootcentos101 opt]#…

大数据面试题 —— Flume

目录 介绍 FlumeFlume 架构请说一下你提到的几种 source 的不同点Flume 传输数据时如何保证数据一致性TailDir 为什么可以断点重传说下Flume事务机制Sink 消费能力弱,Channel 会不会丢失数据数千个Flume要怎么统一配置,修改就分发吗Flume一个节点宕机了怎…

用 二层口 实现三层口 IP 通信的一个实现方法

我们一般用 undo portswitch 来将二层口转为三层口,但如果设备不支持的话,那么。。。 一、拓朴图: 二、实现方法: 起一个 vlan x,配置 vlanif地址,然后二层口划分到 vlan x 下,对端做同样的配置…

一、MySQL基础学习

目录 1、MySQL启动2、MySQL客户端连接3、SQL3.1、SQL语句分类3.2、DDL(数据库定义语言)3.2.1、操作数据库3.2.2、操作数据表 3.3、DML(数据库操作语言)3.3.1、增加 insert into3.3.2、删除 delete3.3.3、修改 update 3.4、DQL&…

用python模拟天体运动(二体运动与天体轨道稳定问题)

目录 1. 模拟天体运动的代码 2. 运行效果 3. 非平方反比(轨道稳定性问题) 1. 模拟天体运动的代码 接下来我们将用python模拟实现天体运动 以下是我们所需要的库: import matplotlib.pyplot as plt import matplotlib.animation as animation import numpy …

Java安装及环境配置详细教程

1.1 下载 Java 安装包 官网下载链接[点击跳转] 建议下载202版本,因为202版本之后的 Oracle JDK 是商用收费的(个人使用不收费) 1.2 勾选红框中内容,然后点击下方下载 1.3 如果没有登录 Oracle 则会跳转到该页面,因为…

使用多元线性回归简单预测

模型和代码 数据格式如下:前21列作为模型输入X,最后5列作为模型输出Y。 训练集: 测试集: 代码: from numpy import genfromtxt import numpy as np from sklearn.ensemble import GradientBoostingRegressor from …

解锁编程潜能:ChatGPT如何革新软件开发

目录 一、背景 二、功能描述 三、总结 一、背景 在这个飞速发展的数字时代,软件开发的效率和质量成了衡量一个开发者能力的重要标准。随着人工智能技术的不断进步,越来越多的开发者开始寻找能够提升工作效率的新方法。我就是其中之一,最近…

蓝桥杯刷题(十一)

1.卡片 反向思考&#xff0c;看k种卡片可以分给几位同学 代码 n int(input()) k 1 while k*(k1)<2*n:k1 print(k)2.美丽的2 代码 def f(x)->bool:while x:if x%102:return Truex//10return False cnt 0 for i in range(1,2021):if f(i):cnt1 print(cnt)3.单词分析 …

vue3+vite项目打包遇到的问题

一、项目打包出现空白页 vite.config.js中&#xff0c;添加base: ./ import { defineConfig } from vite import vue from vitejs/plugin-vueexport default defineConfig({base: ./, })router/index.js&#xff0c;将路由模式改成hash模式 import { createRouter, createWe…

【c++】string类---标准库(STL)中的string类

主页&#xff1a;醋溜马桶圈-CSDN博客 专栏&#xff1a;c_醋溜马桶圈的博客-CSDN博客 gitee&#xff1a;mnxcc (mnxcc) - Gitee.com 目录 1.STL(标准库) 1.1 什么是STL 1.2 STL的版本 1.3 STL的六大组件 1.4 STL的重要性 1.5 如何学习STL 6.STL的缺陷 2. 为什么要学习st…

C++有关内存的那些事

个人主页&#xff1a;PingdiGuo_guo 收录转栏&#xff1a;C干货专栏 前言 本篇博客是讲解关于C内存的一些知识点的。 文章目录 前言 1.内存函数 1.1memcpy函数 1.2memmove函数 1.3 memset函数 2.各数据类型占用 2.1bool类型 2.2char类型 2.3short、int、long类型及整数…

SegFormer 项目排坑记录

SegFormer 项目排坑记录 任务记录创建conda环境 准备数据库和预训练参数程序配置修改测试可视化训练 任务 需要复现SegFormer分割项目&#xff0c;似乎还有点麻烦&#xff0c;参考这几个进行复现&#xff0c;记录下过程&#xff1a; SegFormer mmsegmentation CSDN博客 知乎博…