什么是大型语言模型(LLM)?

大型语言模型 (LLM) 是一种能够理解和生成人类语言文本的机器学习模型。它们通过分析大量语言数据集来工作。

一、什么是大型语言模型 (LLM)?

大型语言模型 (LLM) 是一种人工智能 (AI) 程序,它可以识别和生成文本以及完成其他任务。LLM 经过了庞大的数据集的训练,因此称之为“大型”。LLM 在机器学习的基础上构建:具体来说,它是一种称为 Transformer 模型的神经网络。

简单地说,LLM 是一个计算机程序,已经为它提供了足够多的示例,使它能够识别和解释人类语言或其他类型的复杂数据。许多 LLM 都是使用从互联网上收集的数据(成千上万甚至数百万 GB 的文本)进行训练的。但是,样本的质量会影响 LLM 学习自然语言的效果,因此 LLM 的程序员可能会使用更精心策划的数据集。

LLM 使用一种称为深度学习的机器学习来了解字符、单词和句子是如何共同发挥作用的。深度学习涉及对非结构化数据进行概率分析,最终使深度学习模型能够在无需人工干预的情况下识别不同内容之间的区别。

接着,在调整后进一步训练 LLM:根据程序员希望它们完成的特定任务进行微调或提示调整,例如解释问题并生成回答,或者将文本从一种语言翻译成另一种语言。

二、LLM 有什么用途?

可以训练 LLM 以执行多种任务。最广为人知的用途之一是将它作为生成式 AI 应用:当为它们提供提示或向它们提出问题时,它们可以生成文本作为回复。例如,公开提供的 LLM ChatGPT 可根据用户输入生成散文、诗歌和其他文本形式。

任何大型复杂数据集都可用于训练 LLM,包括编程语言。有些 LLM 可以帮助程序员编写代码。它们可以根据要求编写函数,或者以一些代码为起点,完成一个程序的编写。LLM 也可用于以下领域:

  • 情绪分析
  • DNA 研究
  • 客户服务
  • 聊天机器人
  • 在线搜索

现实世界中的 LLM 包括 ChatGPT (OpenAI)、Bard (Google)、Llama (Meta) 和 Bing Chat (Microsoft),国内的商量、通义千问、文心一言等。GitHub 的 Copilot 是另一个例子,但它用于编码而不是人类的自然语言。

三、LLM 有哪些优势和局限性?

LLM 的一个主要特点是能够响应不可预测的查询。传统的计算机程序接收使用它接受的语法提供的命令,或者接收用户提供的一组输入中的命令。视频游戏有一组有限的按钮,应用程序有一组有限的用户可以单击或输入的物件,而编程语言则由精确的 if/then 语句组成。

相比之下,LLM 可以响应人类的自然语言,并利用数据分析合理回答非结构化问题或提示。一般的计算机程序不能识别类似于“历史上最伟大的四支放克乐队是哪四支?”这样的提示,而 LLM 可能会列出四支此类乐队作答,并提供令人信服的理由说明为什么他们是最伟大的。

不过,就提供的信息而言,LLM 的可靠性取决于它们获取的数据。如果向它们提供虚假信息,它们就会在回答用户询问时提供虚假信息。LLM 有时也会“产生幻觉”:当它们无法提供准确答案时,它们会制造虚假信息。例如,在 2022 年,新闻媒体 Fast Company 向 ChatGPT 询问
特斯拉公司上一季度的财务状况;虽然 ChatGPT 提供了一篇连贯的新闻文章作为回复,但其中的许多信息都是编造的。

在安全方面,基于 LLM、面向用户的应用程序与其他应用程序一样容易出现错误。还可以通过恶意输入操纵 LLM,使其提供某些类型的响应,而不是其他类型的响应,包括危险或不道德的响应。最后,LLM 的安全问题之一是,用户可能为了提高自己的工作效率而将安全的机密数据上传到 LLM 中。但是,LLM 使用它们接收到的输入来进一步训练它们的模型,但是它们在设计上没有安全保险库功能;它们可能会在响应其他用户的查询时公开机密数据。

四、LLM 如何工作?

4.1 机器学习和深度学习

从根本上说,LLM 是在机器学习的基础上构建的。机器学习是 AI 的一个分支;机器学习是指向一个程序提供大量数据,以训练这个程序如何在没有人工干预的情况下识别数据特征的做法。

LLM 使用称为深度学习的机器学习类型。深度学习模型基本上可以在没有人工干预的情况下自行训练识别区别,尽管通常需要一些人工微调。

深度学习利用概率进行“学习”。例如,在句子 "The quick brown fox jumped over the lazy dog" 中,字母 "e" 和 "o" 最常见,各出现四次。根据这一点,深度学习模型可以(正确)得出结论,这些字符是最有可能出现在英语文本中的字符。

实际上,深度学习模型无法从一句话中得出任何结论。但是,在分析了数以万亿计的句子之后,它可以学到足够的知识来预测如何在逻辑上补全一个不完整的句子,甚至生成它自己的句子。

4.2 神经网络

为了实现这种类型的深度学习,LLM 在神经网络的基础上构建。正如人脑是由相互连接和发送信号的神经元组成一样,人工神经网络(通常简称为“神经网络”)也是由相互连接的网络节点组成的。它们由多个“层”组成:输入层、输出层以及这两个层之间的一个或多个层。各层只有在自己的输出超过某个阈值时,才会相互传递信息。

4.2.1 Transformer 模型

用于 LLM 的特定神经网络称为 Transformer 模型。Transformer 模型能够学习上下文,这对于高度依赖语境的人类语言尤为重要。Transformer 模型使用一种名为自注意力机制的数学技术来检测序列中元素相互之间的微妙关系。这使得它们比其他类型的机器学习更善于理解上下文。例如,这使它们能够理解句子的结尾与开头之间的联系,以及段落中各个句子相互之间的关系。

这使 LLM 能够解释人类语言,即使这些语言含糊不清或定义不明确,以它们以前从未遇到过的组合方式排列,或以新的方式结合上下文。在某种程度上,它们“了解”语义,因为它们可以根据词语和概念的含义将两者联系起来,因为它们已经数百万或数十亿次看到过这些词语和概念以这种方式组合在一起。

图片来源:What are Large Language Models? | Definition from TechTarget

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/755527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(vue)Module Error (from ./node_modules/eslint-loader/index.js)

(vue)Module Error (from ./node_modules/eslint-loader/index.js) 方法1:直接关闭eslint // vue.config.js module.exports {lintOnSave: false, //关闭eslint语法检查...... }方法2: 参考:解决参考 解决参考:如何修复vue-cli…

Semantic Scholar简介

简介 在找一些论文搜索API的时候碰巧发现了这个检索网站,简单看看怎么使用(tutorial原文)。 101 引用概述 Semantic Scholar共有数十亿条引文数据,在此基础上提供科学的文献图谱,使学者们能够浏览和发现所有研究领域中…

Ollama 运行 Cohere 的 command-r 模型

Ollama 运行 Cohere 的 command-r 模型 0. 引言1. 安装 MSYS22. 安装 Golang3. Build Ollama4. 运行 command-r 0. 引言 Command-R Command-R 是一种大型语言模型,针对对话交互和长上下文任务进行了优化。它针对的是“可扩展”类别的模型,这些模型在高…

uniapp+uview 学习笔记(二)—— H5开发

文章目录 前言一、开发步骤1.创建项目2.安装组件库并导入使用3.封装请求4.国际化5.打包 总结 前言 本文主要介绍使用uniapp框架和uview组件库进行H5开发,需要用到的开发工具为HBuilder X。 一、开发步骤 1.创建项目 打开HBuilder X,在顶部栏目选择 新…

Python使用Scapy库修改pcap包MAC地址

要修改pcap包中的MAC地址,你可以使用Scapy这个强大的Python库。Scapy允许你创建、解析、修改和发送网络数据包,包括pcap格式的数据包。 以下是一个基本的步骤示例,用于修改pcap包中的MAC地址: 1.安装Scapy库: 如果你…

网络安全框架和云安全参考架构介绍

目录 一、网络安全框架 1.1 概述 1.2 IATF框架 1.2.1 框架来源 1.2.2 框架结构图 1.2.3 框架内容 1.2.3.1 人(People) 1.2.3.2 技术(Technology) 1.2.3.3 操作(Operation) 1.3 NIST网络安全框架 …

7-4 基于顺序存储结构的图书信息表的创建和输出

作者 周咏梅 单位 广东外语外贸大学 定义一个包含图书信息(书号、书名、价格)的顺序表,读入相应的图书数据来完成图书信息表的创建,然后统计图书表中的图书个数,同时逐行输出每本图书的信息。 输入格式: 输入n1行&…

javaAPI操作Elasticsearch

mapping属性 mapping是对索引库中文档的约束, 常见的mapping属性包括: type: 字段数据类型,常见的简单类型有: 字符串: text(可分词的文本), keyword(精确值, 例如: 品牌,国家)数值: long, integer, short, byte, double, float布尔: boolean日期: date对象: object index: 是否…

蓝桥集训之全球变暖

蓝桥集训之全球变暖 核心思想&#xff1a;bfs/dfs 搜索连通块 判断连通块中是否所有点都是边界 / 找有无四个方向都是陆地的点 #include<bits/stdc.h>using namespace std;const int N 1010;typedef pair<int,int> PII;int n;char g[N][N];int hh,tt; //队列P…

Hive 数据迁移与备份

迁移类型 同时迁移表及其数据&#xff08;使用import和export&#xff09; 迁移步骤 将表和数据从 Hive 导出到 HDFS将表和数据从 HDFS 导出到本地服务器将表和数据从本地服务器复制到目标服务器将表和数据从目标服务器上传到目标 HDFS将表和数据从目标 HDFS 上传到目标 Hiv…

FX110网:“炒金热”再现,汇友却被困在了假冒万洲金业!

近日&#xff0c;一汇友炒金就选错了平台&#xff0c;他交易的“万洲金业”不对劲&#xff01; 在假冒“万洲金业”反复折腾 据汇友描述&#xff0c;他此前经朋友指导&#xff0c;下载了一个“万洲金业”的APP&#xff0c;该平台宣称为香港金银业贸易场AA类141号行员&#xff0…

[C++提高编程](二):模板--类模板

目录 类模板语法 类模板与函数模板的区别 类模板中的成员函数创建时机 类模板对象做函数参数 类模板与继承 类模板成员函数类外实现 类模板份文件编写 类模板与友元 类模板使用示例 类模板的作用 建立一个通用类&#xff0c;类中的成员&#xff0c;数据类型可以不具体…

在Linux系统安装MySQL步骤

准备工作&#xff1a;下载好mysql&#xff08;Mariadb&#xff09;安装包&#xff1a; 第一步&#xff1a;检查系统中是否有自带的MySQL&#xff08;Mariadb&#xff09;&#xff1b; # 下面这两个都执行一下 [rootcentos101 opt]# rpm -qa | grep mysql [rootcentos101 opt]#…

大数据面试题 —— Flume

目录 介绍 FlumeFlume 架构请说一下你提到的几种 source 的不同点Flume 传输数据时如何保证数据一致性TailDir 为什么可以断点重传说下Flume事务机制Sink 消费能力弱&#xff0c;Channel 会不会丢失数据数千个Flume要怎么统一配置&#xff0c;修改就分发吗Flume一个节点宕机了怎…

用 二层口 实现三层口 IP 通信的一个实现方法

我们一般用 undo portswitch 来将二层口转为三层口&#xff0c;但如果设备不支持的话&#xff0c;那么。。。 一、拓朴图&#xff1a; 二、实现方法&#xff1a; 起一个 vlan x&#xff0c;配置 vlanif地址&#xff0c;然后二层口划分到 vlan x 下&#xff0c;对端做同样的配置…

HTTP响应头和请求头信息对照表

HTTP请求头提供了关于请求&#xff0c;响应或者其他的发送实体的信息。HTTP的头信息包括通用头、请求头、响应头和实体头四个部分。每个头域由一个域名&#xff0c;冒号&#xff08;:&#xff09;和域值三部分组成。 通用头标&#xff1a;即可用于请求&#xff0c;也可用于响应…

一、MySQL基础学习

目录 1、MySQL启动2、MySQL客户端连接3、SQL3.1、SQL语句分类3.2、DDL&#xff08;数据库定义语言&#xff09;3.2.1、操作数据库3.2.2、操作数据表 3.3、DML&#xff08;数据库操作语言&#xff09;3.3.1、增加 insert into3.3.2、删除 delete3.3.3、修改 update 3.4、DQL&…

linux 日志排查

文章目录 前言一、1、问题排查二、清理脚本1.代码 总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 例如&#xff1a;随着人工智能的不断发展&#xff0c;机器学习这门技术也越来越重要&#xff0c;很多人都开启了学习机器学习&#xff0c;本文就介…

用python模拟天体运动(二体运动与天体轨道稳定问题)

目录 1. 模拟天体运动的代码 2. 运行效果 3. 非平方反比(轨道稳定性问题) 1. 模拟天体运动的代码 接下来我们将用python模拟实现天体运动 以下是我们所需要的库&#xff1a; import matplotlib.pyplot as plt import matplotlib.animation as animation import numpy …

Java安装及环境配置详细教程

1.1 下载 Java 安装包 官网下载链接[点击跳转] 建议下载202版本&#xff0c;因为202版本之后的 Oracle JDK 是商用收费的&#xff08;个人使用不收费&#xff09; 1.2 勾选红框中内容&#xff0c;然后点击下方下载 1.3 如果没有登录 Oracle 则会跳转到该页面&#xff0c;因为…