大语言模型如何工作?

此为观看视频How Large Language Model works的笔记。
在这里插入图片描述

GPT(Generative Pre-trained Transformer)是一个大语言模型(LLM),可以生成类似人类的文本。本文阐述:

  1. 什么是LLM
  2. LLM如何工作
  3. LLM的应用场景

什么是LLM

LLM是基础模型,基于大量未标记和自监督文本数据进行预训练。模型从数据中的模式中学习,产生可推广和自适应的输出。生成的模型可能为几十GB。

大语言模型的“大”体现在2个方面:

  1. 训练的数据大,为TB或PB级(1GB可以存储1.78亿个单词)
  2. 参数非常大。参数是模型在学习过程中可以独立改变的值,参数越多,模型越复杂。例如,GPT-3是在45TB数据的语料库上预训练的,使用了1750亿个参数。

LLM如何工作

LLM包括3部分:数据,架构和训练。
架构指的是神经网络,就GPT而言,就是transformer。
transformer架构使模型可以处理序列数据,如句子和代码。transformer通过考虑与每个其他单词的关系来理解句子中每个单词的上下文。这允许该模型建立对句子结构和其中单词含义的全面理解。然后在此架构上对所有这些大量数据进行训练。在训练期间,模型学会预测句子中的下一个单词。它从随机猜测下一个单词开始,然后在每次迭代时,模型都会调整其内部参数,以减少其预测和实际结果之间的差异。该模型不断重复疵过程,逐渐改进其单词预测,直到它能够可靠地生成连贯的句子。现在,模型可以在更小、更具体的数据集上进行微调。模型逐步完善了其理解,以便能够更准确地执行这项特定任务。微调允许通用语言模型成为特定任务的专家。

LLM的应用场景

对于客户服务,企业可以使用LLM创建智能聊天机器人,可以处理各种客户查询,而人可以处理更复杂。

第二个适合场景是内容创建。LLM可以帮助生成文章、电子邮件、社交媒体帖子,甚至YouTube视频脚本。

对于软件开发,LLM还可以生成和审查代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/804547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

触控芯片TS223B功能介绍, 适用于小家电、电子玩具、智能物联网等各种触控产品方案。

•应用领域• 适用于小家电、电子玩具、智能物联网等各种触控产品方案。 •功能介绍• 单键电容式触控芯片TS223B具有功耗低、触控灵敏度高、抗干扰能力强等众多优势,输出方式包括直接输出、电平翻转输出,并且输出的初始状态可以配置,能灵活满…

FPGA笔试面试题目记录

1 logic utilization 题目:Rank the following operations from lowest utilization to highest. Assume that all variables are 32-bit integers,that the operations are implemented using LUTs ony and that the synthesiser will produce an optimal digital…

基于YOLOv8的摄像头下铁路工人安全作业检测系统

💡💡💡本文摘要:基于YOLOv8的铁路工人安全作业检测系统,属于小目标检测范畴,并阐述了整个数据制作和训练可视化过程, 博主简介 AI小怪兽,YOLO骨灰级玩家,1&#xff0…

3D模型在线轻量化工具

在计算机图形学领域,3D模型简化工具是一种强大的工具,用于减少模型的面数,以提高模型在渲染和处理过程中的性能。本文将全面介绍为何需要简化模型、简化的方法、常见的简化算法以及一款三维模型优化产品 的使用方法,帮助读者更好地…

tomcat处理Http请求流程的步骤

假设来我们在浏览器上输入: http://localhost:8080/my-web-mave/index.jsp ;在tomcat中是如何处理这个请求流程的: 1: 我们的请求被发送到本机端口8080,被在那里侦听的Coyote HTTP/1.1 Connector获得。 2:…

Ble的认证与授权

在BLE(Bluetooth Low Energy)中,认证(Authentication)和授权(Authorization)是确保设备间安全通信的重要概念。这两个过程通常是相互关联的,但它们的具体实现和需求可能会根据应用场景和安全要求而有所不同。 认证(Authentication) 认证是指在设备之间建立信任关系…

IP爆发出蓬勃生命力,泡泡玛特2023营收过亿IP达到10个

“原来我们是基于潮流在事情,后来是基于流行,然后我们现在想去做一个更大的圈,我们想基于快乐。”在2023年9月的一场采访中,泡泡玛特CEO王宁如是说。半年后,泡泡玛特交出了一份还不错的成绩单。近期,泡泡玛…

[StartingPoint][Tier1]Crocodile

Task 1 What Nmap scanning switch employs the use of default scripts during a scan? (哪些 Nmap 扫描开关在扫描期间使用默认脚本?) -sC Task 2 What service version is found to be running on port 21? 发现端口 21 上运行的服务版本是什么&#xff1f…

DEVOPS详解

一、简介 DevOps一词是由英文 Development(开发)和 Operations(运维)组合而成,但它所代表的理念和实践要比单独或组合的两个词广阔的多。DevOps 涵盖了开发、测试、安全、协作方式、数据分析、运维等许多方面。传统的开…

w1r3s 靶机学习

w1r3s 靶机学习 0x01 IP C for command kali ip 10.10.10.128victim ip 10.10.10.1290x02 开扫 C sudo nmap -sn 10.10.10.0/24-sn 多一步入侵和轻量级侦察 发送四项请求 -sL 列表扫描,多用于探测可用ip,广播扫描 –send-ip 时间戳请求&#xff0…

分贝和功率相关的概念

对于刚接触分贝 (dB) 的人来说,分贝 (dB) 的概念很困难且令人困惑,因为射频中经常涉及增益、功率、电压,再加上dB、dBm、dBW、瓦特、毫瓦等名词,且通常需要在线性值和分贝值之间来回转换,所以需要耐心地梳理他们之间的…

libcurl上手笔记-HTTP方法 GET、POST、PUT、DELETE

GET GET方法比较简单,使用一条语句设置即可。 curl_easy_setopt(curl, CURLOPT_HTTPGET, 1L); POST {//方法1 /*使用CURLOPT_POST时,会将方法设置成POST,但是默认还需要从stdin读取提交的内容 * 所以需要用CURLOPT_POSTFIELDSIZE显试设置不…

常见性能测试工具对比

在性能测试工作中,我们常常会遇到好几个工具,但是每一个工具都有自己的优势,一时间不知道怎么选择。 今天我们就将性能测试常用的工具进行对比,这样大家在选择工具的时候心里就有底啦! 阿里云PTS 性能测试PTS&#xff…

【群智能算法改进】一种改进的鹦鹉优化算法 改进鹦鹉优化器 IPO算法【Matlab代码#73】

文章目录 【获取资源请见文章第5节:资源获取】1. 原始鹦鹉优化算法PO2. 改进后的IPO算法2.1 自适应切换因子2.2 混合柯西和高斯变异 3. 部分代码展示4. 仿真结果展示5. 资源获取 【获取资源请见文章第5节:资源获取】 1. 原始鹦鹉优化算法PO 鹦鹉优化算法…

互联网人才现状分析

作者:哈哥撩编程(视频号、抖音、公众号同名) 新星计划全栈领域优秀创作者博客专家全国博客之星第四名超级个体COC上海社区主理人特约讲师谷歌亚马逊演讲嘉宾科技博主极星会首批签约作者 🏆 推荐专栏: 🏅…

C#操作MySQL从入门到精通(6)——对查询数据进行排序

前言 在和MySql数据库交互的过程中,查询数据是使用最频繁的操作,并且我们经常需要对查询到的数据进行排序后输出,比如我想查询1列数据的最小值,那么我可以将查询到的数据进行升序(从小到大)排列,然后取第一个数据就是最小值。本文详细介绍了对查询数据进行排序的各种操…

数学建模-最优包衣厚度终点判别法-二(K-Means聚类)

💞💞 前言 hello hello~ ,这里是viperrrrrrr~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#xff…

【ZZULIOJ】1052: 数列求和4(Java)

目录 题目描述 输入 输出 样例输入 Copy 样例输出 Copy code 题目描述 输入n和a,求aaaaaa…aa…a(n个a),如当n3,a2时,222222的结果为246 输入 包含两个整数,n和a,含义如上述,你可以假定n和a都是小于10的非负整…

OpenLCA案例分析:环境影响与碳排放生命周期评估应用、GREET下载与安装、生物质能源的碳排放

目录 第一章 生命周期评价的理论基础 第二章 OpenLCA的安装使用及生命周期评估模型构建 第三章 GREET的介绍 第四章 生物质能源的碳排放 更多应用 生命周期分析是一种分析工具,它可帮助人们进行有关如何改变产品或如何设计替代产品方面的环境决策,即…

./build/examples/openpose/openpose.bin在windows中调用(步骤非常简单)

下载openpose:https://github.com/CMU-Perceptual-Computing-Lab/openpose/releases 打开进入models 这里面还缺几个模型 打开一个github项目:https://github.com/ihp-lab/OpenSense/blob/fefe13ccf250e4811f4f61edf0b212e4ded78d19/Interoperations/O…