1.简述语言建模LM、统计语言建模SLM、神经语言模型NLM、预训练语言模型PLM、大语言模型LLM

语言是人类表达和交流的突出能力,它在儿童早期发展并在一生中不断演变。然而,机器除非配备了强大的人工智能算法,否则不能自然地掌握以人类语言形式理解和交流的能力。实现让机器像人类一样阅读、写作和交流的目标,一直是一个长期的研究挑战。

从技术上讲,语言建模LM)是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来(或缺失)tokens的概率。语言建模的研究在文献中受到了广泛关注,可以分为四个主要发展阶段:

  • 统计语言建模(SLM):SLMs基于统计学习方法开发,并在20世纪90年代兴起。其基本思想是基于马尔科夫假设建立词预测模型,例如根据最近的上下文预测下一个词。具有固定上下文长度n的SLM也称为n元语言模型,例如bigram和trigram语言模型。SLM已被广泛应用于提高信息检索(IR)和自然语言处理(NLP)的任务性能。然而,它们通常受到维数灾难的困扰:由于估计指数级数量的转换概率,因此很难准确估计高阶语言模型。因此,专门设计的平滑策略,如回退估计和古德图灵估计已被引入以缓解数据稀疏问题。
  • 神经语言模型(NLM):NLM通过神经网络,如循环神经网络(RNN),来描述单词序列的概率。作为一个显著贡献的工作引入了词的分布式表示这一概念,并在聚合上下文特征(即分布式词向量)的条件下构建词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用神经网络方法来为各种NLP任务构建统一解决方案。此外,word2vec提出了构建一个简化的浅层神经网络来学习分布式单词表示的方法,这些表示在各种NLP任务重被证明非常有效。这些研究开创了将语言模型用于表示学习(超越词序列建模)的应用,对NLP领域产生了重要影响。
  • 预训练语言模型(PLM):作为早期尝试,ELMo被提出来通过预训练一个双向LSTM(biLSTM)网络(而不是学习固定的词表示)来捕捉上下文感知的词表示,然后根据特定的下游任务微调biLSTM网络。进一步,基于自注意力机制的高度并行化Transformer架构,BERT作为双向语言模型,在大规模无标签语料库上使用专门设计的预训练任务。这些预训练的上下文感知词表示作为通用语义特征非常有效,其极大地提高了NLP任务的性能。这项研究激发了大量后续工作,确立了“预训练和微调”学习范式。遵循这一范式,已经建立了大量关于PLM的研究,这些研究引入了不同的架构(例如GPT-2和BART)或者改进的预训练策略。在这个范式中,通常需要对PLM进行微调以适应不同的下游任务。
  • 大语言模型(LLM):研究人员发现,扩展PLM(例如扩展模型大小或数据大小)通常会提高下游任务的模型性能(即遵循扩展定律)。许多研究通过训练越来越大的PLM(例如175B参数的GPT-3和540B参数的PaLM)来探索性能极限。尽管扩展主要在模型大小方面进行(使用类似的架构和预训练任务),但这些大规模的PLM与较小的PLM(例如3.3亿参数的BERT和15亿参数的GPT-2)表现出不同的行为,并在解决一系列复杂任务中展示了惊人的能力(称为涌现能力)。例如,GPT-3可以通过上下文学习来解决少样本任务,而GPT-2则表现不佳。因此,研究界将这些大规模的PLM命名为“大语言模型(LLM)”。作为LLM的一个出色应用,ChatGPT将GPT系列的LLM应用于对话,展现出惊人的与人类对话的能力。

在现有文献中,PLM已经得到了广泛的讨论和调研,而很少有研究对LLM以系统的方式进行回顾。LLM和PLM之间的三个主要区别。
首先,LLM表现出一些令人惊讶的涌现能力,这些能力可能在以前较小的PLM中没有观察到。这些能力是LM在复杂任务上表现的关键,它使得人工智能算法具有前所未有的强大和有效性。
其次,LLM将彻底改变人类开发和使用人工智能算法的方式。与小型PLM不同,访问LLM的主要方法是通过提示接口(例如GPT-4 API)。人们必须了解LLM的工作原理,并以LLM能够遵循的方式形式化他们的任务。
第三,LLM的发展不再明确区分研究和工程。训练LLM需要在大规模数据处理和分布式并行训练方面具有丰富的实践经验。为了开发出有能力的LLM,研究人员必须解决复杂的工程问题,他们需要与工程师合作或成为工程师。

如今,LLM对AI社区产生了重大影响,ChatGPT和GPT-4的出现促使人们重新思考通用人工智能(AGI)的可能性。OpenAI已经发布了一篇名为“planning for AGI and beyond”的技术文章,讨论了实现AGI的短期和长期计划,而一篇更近期的论文认为GPT-4可能被视为AGI系统的早期版本。AI研究领域正因LLM的迅速发展而发生革命性变革。在NLP领域,LLM可以在一定程度上作为通用语言任务解决器,其研究范式已经转向使用LLM。在IR领域,传统搜索引擎正受到通过AI聊天机器人(即ChatGPT)搜索新信息的挑战,而New Bing展示了一个初步的基于LLM增强搜索结果的研究尝试。在计算机视觉(CV)领域,研究人员试图开发类似ChatGPT的视觉-语言模型,以更好的为多模态对话提供服务,GPT-4已经通过整合视觉信息来支持多模态输入。这一新技术浪潮可能会带来一个基于LLM的实际应用的繁荣生态系统。例如,Microsoft 365正在利用LLM(即Copilot)来自动化办公工作,而OpenAI支持在ChatGPT中使用插件来实现特殊功能。

LLM尽管取得了进步和影响,但其基本原理尚未得到充分探索。首先,为什么涌现能力会出现在LLM中,而不是较小的PLM中,这仍然是个谜。并且,一个更普遍的问题是研究界尚且缺乏对LLM优越能力的关键因素进行深入、详细的研究调查。因此,研究LLM何时以及如何获得这些能力非常重要。尽管对这个问题已有一些有意义的讨论,但仍需要更多原则性的研究来解释LLM的“秘密”。其次,研究界很难训练出有能力的LLM。由于计算资源的巨大需求,为了研究训练LLMs的各种策略的效果,进行重复、消融研究的成本非常高。实际上,LLM主要由工业界训练,许多重要的训练细节(如数据收集和清理)并未向公众透露。第三,将LLM与人类价值观或偏好保持一致是具有挑战性的。LLM尽管具有出色的能力,但是其也可能生成有害、虚构或具有负面影响的内容。因此,需要有效和高效的控制方法来消除使用LLMs的潜在风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/53840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

改变事件

窗口的某些属性的状态发生改变时就会触发该事件 对应的事件类型包括 QEvent::ToolBarChange, QEvent::ActivationChange, QEvent::EnabledChange, QEvent::FontChange,QEvent::StyleChange, QEvent::PaletteChange, QEvent::WindowTitleChange, QEvent::IconTextChange, QEve…

GO Govaluate

govaluate 是一个用于在 Go 语言中动态求值表达式的库。它允许你解析和评估字符串形式的表达式,这些表达式可以包含变量、函数以及逻辑、算术和比较操作。它非常适合在运行时处理复杂的逻辑规则和条件表达式,而不需要重新编译代码。 安装 govaluate go…

SpringMVC中使用REST风格

了解REST REST:即 Representational State Transfer。(资源)表现层状态转化。是目前最流行的一种互联网软件架构。使用这种架构的应用即为RESTFUL。它结构清晰、符合标准、易于理解、扩展方便, 所以正得到越来越多网站的采用。 …

【练习9】大数加法

链接:大数加法__牛客网 (nowcoder.com) 分析: 当作竖式计算 import java.util.*;public class Solution {public String solve (String s, String t) {StringBuffer ret new StringBuffer();//i是字符串s的最后一个字符的索引int i s.length() - 1;//j…

新能源汽车安全问题如何解决?细看“保护罩”连接器的守护使命

「当前市场上绝大部分电池的安全系数远远不够」。 在一场世界动力电池大会上,宁德时代的董事长曾毓群这样犀利直言。 从汽车开始向电动化转型升级那天起,动力电池的安全隐患就一直是个老生常谈的话题了。曾毓群的这句话,直接点明了行业的发展…

参数传了报错没传参数识别不到参数传丢

【记一次参数传值了但报错未传值的问题解决历程】 问题描述:同一个接口,用测试类调可以成功,用postman调用一直报错少参数,后又尝试了用idea自带的http调用,同样报错参数未传值。 如图,传值了报错未传值。…

Java并发:互斥锁,读写锁,Condition,StampedLock

3,Lock与Condition 3.1,互斥锁 3.1.1,可重入锁 锁的可重入性(Reentrant Locking)是指在同一个线程中,已经获取锁的线程可以再次获取该锁而不会导致死锁。这种特性允许线程在持有锁的情况下,可…

AI网盘搜索 1.2.6 智能文件搜索助手,一键搜索所有资源

对于经常需要处理大量文件的人来说,AI网盘检索简直是救星。它提供了智能对话式搜索功能,只需用自然语言描述就能找到需要的文件。此外,它还广泛支持各种文件类型,从文档到图片,全面覆盖。精准定位功能让您能够快速找到…

DSC+主备+异步备库搭建

DSC主备异步备库搭建 本次在DSC的基础上进行主备集群异步备库的搭建,实现DSC主备异步备库的集合。 这里DMDSC集群是看做一个数据库服务(即DSC集群内的都叫主库),备库是一个单机实例 环境配置 服务器配置 端口配置 实例名PORT…

C#获取计算机信息

目录 效果 项目 代码 下载 效果 项目 代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using System.Management; n…

Vulnhub:bassamCTF

靶机下载地址 信息收集 主机发现 扫描攻击机同网段存活主机。 nmap 192.168.31.0/24 -Pn -T4 靶机ip:192.168.31.165 端口扫描 nmap 192.168.31.165 -A -p- -T4 开放端口22,80。 网站信息收集 访问80端口的http服务。首页是空白页面,…

关于打不开SOAMANAGER如何解决

参考文章:https://blog.csdn.net/yannickdann/article/details/115396035 打开SE93

15_分布式数据结构

菜鸟: 老鸟,我最近在处理大量数据的时候遇到了瓶颈,单台服务器的内存和计算能力都不够用了。你知道有什么方法可以解决这个问题吗? 老鸟: 嗯,这种情况很常见。你可以考虑使用分布式数据结构。听说过吗&a…

ARM base instruction -- blr

BLR Branch with Link to Register calls a subroutine at an address in a register, setting register X30 to PC4. 带寄存器链接的分支在寄存器中的某个地址调用一个子程序&#xff0c;将寄存器 X30 (lr) 设置为 PC4。 BLR <Xn> BLR 跳转到reg内容地址&#xff0c;…

Django创建模型

1、根据创建好应用模块 python manage.py startapp tests 2、在models文件里创建模型 from django.db import modelsfrom book.models import User# Create your models here. class Tests(models.Model):STATUS_CHOICES ((0, 启用),(1, 停用),# 更多状态...)add_time mode…

大模型训练数据库Common Crawl

Common Crawl介绍 ‌‌Common Crawl是一个非营利组织&#xff0c;致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据&#xff0c;并将其上传到‌Com…

人工智能(AI)领域各方向顶会和顶刊

在人工智能&#xff08;AI&#xff09;这个快速发展的领域&#xff0c;研究人员和从业者需要紧跟最新的研究动态和技术进展。顶级的会议和期刊是获取最新科研成果和交流思想的重要平台。以下是人工智能领域内不同方向的顶级会议和期刊概览。 顶级会议 人工智能基础与综合 A…

基于Python的自然语言处理系列(5):窗口分类器用于命名实体识别(NER)

在本系列的第五篇文章中&#xff0c;我们将探讨如何使用窗口分类器进行命名实体识别&#xff08;NER&#xff09;。NER是信息提取中的关键任务&#xff0c;旨在从文本中识别出特定类型的实体&#xff0c;如人名、地名、组织名等。我们将介绍窗口分类器的原理&#xff0c;并展示…

vm虚拟机中ubuntu连不上网络,网络图标消失解决办法

之前做实验调了下机子的网络配置&#xff0c;后面实验做完发现连不上网了&#xff0c;这个问题折磨了我一个多小时&#xff0c;最后终于解决了&#xff0c;记录下解决过程 1. 重启网络服务 有时候简单地重启网络服务就能解决问题&#xff08;我未能解决&#xff0c;可能和碰过…

Spring自定义注解

目录 一、interface 关键字 二、元注解 三、简单实现 四、使用切面执行自定义注解逻辑 1) 首先将刚才的注解修改成放在方法上的&#xff1a; 2) 定义一个切面类&#xff1a; 3&#xff09;将注解放入到接口方法中测试&#xff1a; 五、切点表达式 一、interface 关键字 …