大型语言模型(LLMs)是如何工作的?

大型语言模型(LLMs)如ChatGPT、Bing的“Sydney”模式和Google的Bard正在占据新闻头条。与其讨论它们将使哪些工作变得过时,本文将探讨这些模型的工作原理,包括它们从哪里获取数据以及使它们能够生成令人信服的真实文本的基本数学方法。

机器学习101LLMs是一种机器学习模型,就像许多其他模型一样。要理解它们的工作原理,让我们从了解一般的机器学习基础知识开始。

注意:有许多优秀的在线视觉资源可以更详细地解释机器学习,可能比我能解释得更好——我建议查看它们!然而,我将在这里介绍基本概念。

掌握基本的ML模型的最简单方法是考虑预测:基于我已经知道的,在一个新情况下会发生什么?这类似于你的大脑如何工作。

想象你有一个总是迟到的朋友。你正在计划一个聚会,所以你预计他还会迟到。虽然不确定,但根据他的记录,你认为有很大的可能性。如果他准时到达,你会感到惊讶,并且你会记住这一点;也许下次你会调整对他的迟到的期望。

你的大脑中有许多这样的模型不断工作,但目前我们还不完全了解它们在内部是如何实际工作的。在现实世界中,我们不得不使用算法来应对——有些简单,有些非常复杂——它们从数据中学习并预测新情况下可能会发生的事情。通常,模型被训练来做特定的事情(如预测股票价格或创建图像),但它们正变得越来越多功能化。

图片

机器学习模型有点像API:它接收输入,你教它产生特定的输出。以下是这个过程:

  1. 收集训练数据:收集关于你想要建模的数据的一堆信息。
  2. 分析训练数据:查看数据以找到模式和细节。
  3. 选择模型:选择一个算法(或几个)来理解数据及其工作原理。
  4. 训练:运行算法,它学习并存储它所推断出的内容。
  5. 推理:将新数据呈现给模型,它将给出它的想法。

根据模型需要完成的具体任务,你创建模型的接口,决定它接收什么信息以及返回什么信息。

图片

你可能会问,这个算法是做什么的?嗯,可以把它想象成一个超级聪明的分析师。它可以发现你提供的数据中的关联关系,这些关联关系通常是你自己很难发现的。数据通常包含一些X元素——比如特征、设置、细节——以及一些Y元素——实际发生的事情。如果你正在查看这些数据:

图片

你不需要机器学习来告诉你当X为15时,Y约为150,000。但是如果有30个不同的X因素呢?或者数据看起来很怪异?或者是文本?机器学习就是解决我们人类技能不足的棘手情况。就是这样。

这就是为什么ML算法可以像线性回归(如统计1)一样简单,也可以像具有数百万节点的神经网络一样复杂。最近新闻中的超级先进模型非常复杂,需要很多人和多年的研究。但在许多公司中,数据科学家使用简单的算法仍然可以获得良好的结果。

从零开始构建强大的ML模型是一个非常专业化的领域。一些数据科学家和机器学习工程师使用PyTorch和Tensorflow等工具创建模型,而其他人则增强现有的开源模型。您还可以选择将整个模型开发过程外包,并使用别人创建的现成模型。

创建模型就像是一个试错的过程。除非你的数据非常直接,否则你可能需要测试不同的方法并在你的模型开始有意义之前进行不断的调整。它融合了科学、数学、艺术和一些随机性。

语言模型和生成文本当你的数据有时间元素时——比如预测未来股票价格或理解即将到来的选举——模型的作用就很明显了。它使用过去来预测未来。然而,许多机器学习模型,如语言模型,根本不处理时间序列数据。

语言模型只是处理文本数据的机器学习模型。你可以在所谓的“语料库”(或仅仅是文本)上训练它们,然后你可以将它们用于各种任务,例如:

1、回答

2、问题搜索

3、摘要

4、转录语言模型的概念已经存在一段时间了,但最近深度学习和神经网络的兴起是一个重大事件;我们将讨论这两者。

概率语言模型简单来说,概率语言模型就像单词或词组的概率图。在英语中,它检查一段文本并分析哪些单词出现,何时出现,出现的频率以及它们出现的次序等等。所有这些信息都是通过统计捕获的。

现在,让我们快速制作自己的语言模型。

以下是两个可能或不一定表达我真实想法的句子:

“最好的曼哈顿鸡尾酒配方使用两盎司Van Brunt帝国黑麦威士忌,一盎司Cocchi Di Torino甜苦艾酒,一撮安格斯图拉苦味酒和一撮橙子苦味酒。我在调酒杯中搅拌大约60次,倒入一个冷却的Nick and Nora杯中,并用一颗樱桃装饰。”

要制作一个简单的概率语言模型,我们将收集n-grams,这是一组词的高级统计术语。让我们将n设置为1,这意味着我们只会计算单词出现的频率。

图片

如果n设置为2:

图片

模型所做的是生成一堆n-grams,关注哪些单词一起出现以及它们的顺序。

😰 不要担心细节 😰

我通过n-gram练习只是为了说明许多模型正在做的事情并不是那么复杂(尽管对某些人来说是这样的)。因此,如果您没有理解上述所有细节,请不要感到压力。

😰 不要担心细节 😰

一旦您存储了这些信息,就可以预测接下来可能出现的单词。如果我们要从两个鸡尾酒句子中创建一个新的句子,我们会以一种类似于之前的方式将单词组合在一起。

神经网络和语言模型概率语言模型已经存在了几十年。然而,最近使用神经网络(一种更复杂的算法)进行语言建模变得越来越流行。这些网络使用称为嵌入的东西以更有意义的方式学习发生了什么。对于模型来说,直接从单词中学习是很困难的,但更容易从这些单词的数学表示中学习。

嵌入是一种方法,可以将具有大量维度的数据(如包含大量离散单词和组合的大型文本)以较少的数据进行数学表示,同时不会丢失太多细节。对于一个机器学习模型来说,处理关于制作鸡尾酒的100个不同1500字的博客文章的文本(总共有15万个单词!)是一项艰巨的任务。但是,如果我们能够将这些信息转化为一系列数字,那么我们就走对了路。

配备了更易于使用的单词和文本表示形式后,神经网络可以学习有关文本的重要信息,例如:

单词之间的语义关系引入更多上下文(单词或句子前后的句子)确定哪些单词重要,哪些不重要这些东西变得相当复杂。但是目标很简单:一个足够强大的模型,在预测下一个单词、句子或段落时可以考虑很多上下文,就像我们的大脑一样。

大型语言模型现在ChatGPT及其同类本质上是大规模语言模型(这就是为什么它们被称为这样)。它们建立在过去十年的层层进展之上,包括:

Word2Vec模型LSTM(长短时记忆)模型RNN(循环神经网络)Transformers(是的)(也称为“基础模型”)您不必真正了解每个模型是什么。关键是要认识到这些大型语言模型并不是某种突然的科学突破。研究人员多年来一直在稳步迈向今天的现实,并且每一项新的发展都对达到这一点起到了至关重要的作用。当LSTM在2019年获得关注时(尽管该概念在90年代就引入了),有一个大的炒作周期,而所有这些也是如此。研究有点奇怪!

ChatGPT和LLMs创建整段文本的方式是通过反复进行单词猜测游戏。

以下是概述:

  1. 您给模型一个提示(这是“预测”短语)。
  2. 它根据提示预测一个单词。
  3. 它根据第一个单词预测第二个单词。
  4. 它根据前两个单词预测第三个单词。

当您将其分解时,这很简单。但是事实证明,当您的模型在互联网的所有文本上进行训练时,单词猜测游戏可以非常强大。数据科学家经常说关于ML模型:“垃圾输入意味着垃圾输出”,意思是您的模型只与用于训练它们的数据一样好。通过与微软合作,OpenAI能够使用大量的计算资源来收集这些数据并在强大的服务器上训练这些模型。

以整个书面互联网为上下文,LLMs可以生成很少偏离“正常”的句子,与旧模型不同。如果短语“我在玻璃杯周围用曼哈顿冰镇鸡尾酒安格斯图拉”在网页上不存在,那么该模型可能不会生成它。而这个简单的事实是这些模型如此出色的一个主要原因。

图片

这引出了一个重要的问题:这些大型语言模型真的理解它们提供的答案吗?弄清楚这个问题涉及到数学、哲学和语义学(“理解”到底是什么意思?)的混合。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26882.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构的队列,链表,栈的基础操作

1&#xff1a;队列 #include <stdio.h>#include <stdlib.h>#include "./02队列.h"/** function: 创建一个空的队列* param [ in] * param [out] * return */Sequeue* xinduilie(){Sequeue* sq (Sequeue*)malloc(sizeof(Sequeue)); if(N…

LAMM: Label Alignment for Multi-Modal Prompt Learning

文章汇总 存在的问题 之前学者的方法主要侧重于适用于所有类别的提示模板&#xff0c;而忽略了每个类别的特征表示。 动机 引入可训练向量来替代多模态提示中的标签词。 流程解读 之前的方法侧重于适用于所有类别的提示模板&#xff0c;而忽略了每个类别的特征表示。作者这…

数字经济红利惠及全民,从掏钱消费到赚钱消费的转变,你准备好了吗?

伴随科技飞速发展&#xff0c;我们迎来了一个全新的经济时代——数字经济。数字经济以其独特的魅力&#xff0c;正为我们每个人带来前所未有的红利。 那么&#xff0c;面对数字经济的红利&#xff0c;我们是否已经做好了准备&#xff1f;我们又该如何把握这个时代赋予我们的机…

上位机图像处理和嵌入式模块部署(h750 mcu vs f407)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 在目前工业控制上面&#xff0c;f103和f407是用的最多的两种stm32 mcu。前者频率低一点&#xff0c;功能少一点&#xff0c;一般用在低端的嵌入式设…

PopChar for Mac——文本创作的得力助手

在文本创作过程中&#xff0c;特殊字符和符号的使用往往能够增加文本的表现力和吸引力。PopChar for Mac作为一款专为Mac用户设计的字符输入工具&#xff0c;为你提供了丰富的字符选择。它支持多种字符集和字体&#xff0c;让你能够根据自己的需求选择最适合的字符样式。同时&a…

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手&#xff08;检索增强生成(RAG)大模型&#xff09; 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现&#xff0c;开源、可离线部署的检索增强生成(RAG)大模型知识库项目。 1.介绍 一种利用 langchain思想实…

无缝滚动的swiper

看效果 看代码 <swiper :indicator-dots"true" :autoplay"true" circular :interval"3000" :duration"6000" display-multiple-items"3" easing-function"linear"><swiper-item v-for"(item,indx…

经纬恒润助力微宏动力荣获ISO/SAE 21434网络安全流程认证证书

近日&#xff0c;经纬恒润与微宏动力合作的网络安全开发及认证项目顺利完成了阶段性里程碑。作为一家全球化的新能源及储电技术产品及解决方案供应商&#xff0c;微宏动力成功获得了由国际独立第三方检测、检验和认证机构UL Solutions授予的ISO/SAE 21434网络安全流程认证证书。…

[Algorithm][贪心][柠檬水找零][将数组和减半的最少操作次数][最大数][摆动序列]详细讲解

目录 1.柠檬水找零1.题目链接2.算法原理详解3.代码实现 2.将数组和减半的最少操作次数1.题目链接2.算法原理详解3.代码实现 3.最大数1.题目链接2.算法原理详解3.代码实现 4.摆动序列1.题目链接2.算法原理详解3.代码实现 1.柠檬水找零 1.题目链接 柠檬水找零 2.算法原理详解 …

FlashDB的TS数据库的标准ANSI C移植验证

本文目录 1、引言2、环境准备3、修改驱动4、验证 文章对应视频教程&#xff1a; 暂无&#xff0c;可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在当今数据驱动的时代&#xff0c;高效可靠的数据存储与管理对于嵌入式系统及物联网(IoT)应用至关重…

非计算机专业可以考“软考”吗?

全国计算机软件水平考试对报名条件没有学历、资历、年龄以及专业等限制&#xff0c;非计算机专业的人员也可以报考。证书长期有效&#xff0c;考生可根据个人需求选择合适的级别和资格进行报考。报名方式包括网上报名和考生本人到指定地点报名两种。 考试范围 (1) 高级资格包括…

农业领域科技查新点提炼方法附案例!

农业学科是人类通过改造和利用生物有机体(植物、动物、微生物等)及各种自然资源(光、热、水、土壤等)生产出人类需求的农产品的过程&#xff0c;人类在这一过程中所积累的科学原理、技术、工艺和技能&#xff0c;统称为农业科学技术&#xff0c;该领域具有研究范围广、综合性强…

多模态革新:Ferret-v2在高分辨率图像理解与细粒度交互的突破

在多模态大模型&#xff08;MLLMs&#xff09;的研究中&#xff0c;如何将视觉理解能力与语言模型相结合&#xff0c;以实现更精细的区域描述和推理&#xff0c;是一个重要的研究方向。先前的工作如Ferret模型&#xff0c;通过整合区域理解能力&#xff0c;提升了模型在对话中的…

3-异常-出现 PSQLException: Connection refused的8种可能

3-异常-出现 PSQLException: Connection refused的8种可能 更多内容欢迎关注我&#xff08;持续更新中&#xff0c;欢迎Star✨&#xff09; Github&#xff1a;CodeZeng1998/Java-Developer-Work-Note 技术公众号&#xff1a;CodeZeng1998&#xff08;纯纯技术文&#xff09…

问题(05)elementui 输入框里面禁止浏览器自动填充用户名密码、弹出浏览器历史密码提示框

问题描述 el-input&#xff0c;非密码框&#xff0c;在输入时&#xff0c; 问题1&#xff1a; 浏览器自动填充用户名密码。问题2&#xff1a;右边显示浏览器历史密码提示框。 问题解决 问题1&#xff1a;使用auto-complete"new-password" <input type"te…

Rust基础学习-ModulesPackage

在Rust中&#xff0c;模块有助于将程序分割成逻辑单元&#xff0c;以提高可读性和组织性。一旦程序变得更大&#xff0c;将其拆分为多个文件或命名空间非常重要。 模块有助于构建我们的程序。模块是项目的集合&#xff1a;包括函数、结构体甚至其他模块。 Module 定义模块 在…

cleanmymacX和腾讯柠檬到底哪个好用 2024最新使用测评

CleanMyMac X和腾讯柠檬都是Mac系统清理软件&#xff0c;各有其特点和优势&#xff0c;选择哪个更好用取决于用户的具体需求和使用习惯。 经常有新关注的粉丝问&#xff0c;同样做为垃圾清理软件&#xff0c;付费CleanMyMac和免费的柠檬清理哪个更好用&#xff1f;其实&#xf…

大数据集成平台建设方案(Word方案)

基础支撑平台主要承担系统总体架构与各个应用子系统的交互&#xff0c;第三方系统与总体架构的交互。需要满足内部业务在该平台的基础上&#xff0c;实现平台对于子系统的可扩展性。基于以上分析对基础支撑平台&#xff0c;提出了以下要求&#xff1a; 基于平台的基础架构&…

为什么选择 ABBYY FineReader PDF ?

帮助用户们对PDF文件进行快速的编辑处理&#xff0c;同时也可以快速识别PDF文件里的文字内容&#xff0c;并且可以让用户们进行文本编辑&#xff0c;所以可以有效提升办公效率。 ABBYY-ABBYY Finereader 15 Win-安装包&#xff1a;https://souurl.cn/OY2L3m 高级转换功能 ABBY…

【Python】Python 2 测试网络连通性脚本

文章目录 前言1. 命令行传参2. 代码 前言 最近在只有python2的服务器上部署服务&#xff0c;不能用三方类库&#xff0c;这里出于好奇心学习下python。这里简单做个脚本&#xff0c;实现了检验网络连通性的功能&#xff08;类似于curl&#xff09;。 1. 命令行传参 使用命令…