LLMs的基本组成:向量、Tokens和嵌入

编者按:随着人工智能技术的不断发展,大模型(语言、视觉,或多模态模型)已成为当今AI应用的核心组成部分。这些模型具有处理和理解自然语言等模态输入的能力,推动了诸如聊天机器人、智能助手、自动文本生成等各种应用的发展。理解LLMs背后的基本概念对于有效地利用和开发这些模型至关重要。Janakiram & Associates 的首席分析师Janakiram MSV在《The Building Blocks of LLMs: Vectors, Tokens and Embeddings》“LLMs的基本组成:向量、Token和嵌入”一文中详细介绍了LLMs的基本构成要素——向量、Tokens和嵌入,并探讨了它们之间的关系和作用。向量作为数学表示,在LLMs中扮演着将文本数据转换为机器可理解形式的角色;Tokens作为语言单位,是处理和组织文本信息的基本单元;而嵌入则在向量的基础上融入了深层语义信息,使得LLMs能够更加准确地理解和处理语言数据。通过理解这些基本概念,我们可以更好地把握LLMs的工作原理,从而更有效地应用于各种自然语言处理任务中。

图片

了解向量、Tokens和嵌入是理解大语言模型怎样处理语言的基础。

在处理LLMs时,你经常会遇到“向量”、“Tokens”和“嵌入”这些术语。在深入研究构建聊天机器人和人工智能助手之前,彻底理解这些概念非常重要。随着多模态方法日益普及,这些术语不仅仅适用于大型语言模型(LLMs),还可用于解释图像和视频。

本教程的目标是通过简单直接的示例和代码片段向你介绍这些核心概念。

向量:机器的语言

向量在LLMs和生成式人工智能的运作中起着至关重要的作用。要理解它们的重要性,就必须了解向量是什么,以及它们在LLMs中是如何生成和利用的。

在数学和物理学中,向量是一个具有大小和方向的对象。它可以几何地表示为一个有向线段,其中线段的长度表示大小,箭头指向向量的方向。向量在表示不能完全用单个数字描述的量(如力、速度或位移)时起着基础作用,这些量具有大小和方向。

在LLMs领域,向量用于以模型可以理解和处理的数字形式表示文本或数据。这种表示被称为嵌入。嵌入是捕捉单词、句子甚至整个文档的语义含义的高维向量。将文本转换为嵌入的过程使LLMs能够执行各种自然语言处理任务,如文本生成、情感分析等。

简单来说,向量就是一个一维数组。

由于机器只能理解数字,因此诸如文本和图像之类的数据被转换为向量。向量是唯一被神经网络和变换器架构理解的格式。

对向量进行操作,例如点积,有助于我们发现两个向量是否相同或不同。在高层次上,这构成了对存储在内存中或专门的向量数据库中的向量进行相似性搜索的基础。

下面的代码片段介绍了向量的基本概念。如你所见,它是一个简单的一维数组:

图片

虽然上面显示的向量与文本无关,但它传达了这个概念。我们在下一节探讨的Tokens是表示文本的向量的机制。

Tokens:LLMs的基本构建块

Tokens是LLMs处理的基本数据单元。在文本的语境中,一个Token可以是一个单词、一个单词的一部分(子词),甚至是一个字符,这取决于Token化过程。

当文本通过分词器传递时,它根据特定方案对输入进行编码,并发出专门的向量,LLMs可以理解这些向量。编码方案高度依赖于LLMs。分词器可以决定将每个单词和部分单词转换为一个基于编码的向量。当一个Token经过解码器时,它可以轻松地再次转换为文本。

将LLMs的上下文长度称为其中一个关键的区别因素是很常见的。从技术上讲,它映射到LLMs接受特定数量的Tokens作为输入,并生成另一组Token作为输出的能力。分词器负责将提示(输入)编码成Tokens,并将响应(输出)转换回文本。

Tokens****是文本以向量形式的表示。

下面的代码片段解释了如何将文本转换为Tokens,其中一个是针对像Llama 2这样的开放模型,另一个是针对商业模型,如GPT-4。这些代码基于Hugging Face的transformers模块和OpenAI的Tiktoken。

图片

图片

图片

图片

因此,关键要点是Tokens是基于特定分词器的向量。

嵌入:语义空间

如果Tokens是文本的向量表示,那么嵌入就是具有语义上下文的Tokens。它们代表文本的含义和上下文。如果Tokens由分词器编码或解码,那么嵌入模型负责生成以向量形式的文本嵌入。嵌入是使LLMs能够理解单词和短语的上下文、细微差别和微妙含义的基础。它们是模型从大量文本数据中学习的结果,不仅编码了Tokens的身份,还编码了它与其他Tokens的关系。

嵌入是LLMs的基础方面。

通过嵌入,LLMs实现了对语言的深度理解,实现了情感分析、文本摘要和问答等任务,具有细致的理解和生成能力。它们是LLM的入口点,但它们也被用于LLM之外,将文本转换为向量同时保留语义上下文。当文本通过嵌入模型时,将产生一个包含嵌入的向量。以下是来自开源嵌入模型sentence-transformers/all-MiniLM-L6-v2以及OpenAI模型text-embedding-3-small的示例。

图片

图片

图片

图片

比较与互动

Tokens 与向量:Tokens是语言单位,而向量是这些单位的数学表示。在LLMs的处理管道中,每个Token都被映射到一个向量。

向量与嵌入: 所有嵌入都是向量,但并非所有向量都是嵌入。嵌入是经过专门训练以捕捉深层语义关系的向量。

Tokens 和嵌入:**从Tokens到嵌入的过渡代表了从语言的离散表示向细致、连续和具有上下文意识的语义空间的移动。

理解向量、Tokens和嵌入对于把握LLMs如何处理语言至关重要。Tokens作为基本数据单位,向量为机器处理提供了数学框架,而嵌入则带来了深度和理解,使LLMs能够以类似人类的灵活性和准确性执行任务。这些组件共同构成了LLM技术的支柱,推动着当今AI应用的先进语言模型。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

私域社群的组织及运营角色定位、分工

私域社群运营是一个涉及多个角色和职能的复杂过程,每个角色都有其特定的职责和目标。以下是一些常见角色及其职能内容的概述: 产品经理(Product Manager) 负责私域社群产品的规划、设计和迭代。理解用户需求,收集用户反…

开源项目的发展趋势之托管平台

引言 回溯至十五年前的求学时光,当我们初涉编程的浩瀚海洋,面对程序设计这一崭新挑战,曾渴望能有一份现成的源码作为启航的灯塔。然而,在那个时代,除了有限的SDK资源外,寻觅到高质量、可借鉴的源代码并非易…

springboot服装购物商城系统-计算机毕业设计源码35058

摘要 服装购物商城系统小程序,依托Spring Boot框架的强大支持,为用户呈现了一个功能丰富、体验流畅的在线购物平台。该系统不仅涵盖了商品展示、用户注册登录、购物车管理、订单处理、支付集成等核心购物流程,还引入了个性化推荐算法&#xf…

药品稳定性试验箱:确保药物有效期的关键设备

关键词: 药品稳定性试验箱、 药品稳定性试验模拟器、人造太阳 摘要:药品稳定性试验箱是制药行业重要的研究工具,主要用于在模拟气候环境中评估药物稳定性,以确定药物的有效期和影响稳定性的因素。该设备由温湿度控制系统、光照系…

NodeJS校园点餐系统-计算机毕业设计源码56979

摘 要 近年来,随着移动互联网的迅猛发展,微信小程序作为一种轻量级应用形式逐渐受到人们的关注和喜爱。在此背景下,各行各业开始向微信小程序上线他们的服务,其中包括餐饮行业,在校园内,学生、教职工和访客…

通用代码生成器模板体系,域对象,枚举和动词算子

通用代码生成器模板体系,域对象,枚举和动词算子 通用代码生成器或者叫动词算子式通用目的代码生成器是一组使用Java编写的通用代码生成器。它们的原理基于动词算子和域对象的笛卡尔积。它们没有使用FreeMarker和或者Velocity等现成的文件式模板引擎。而…

传统的springboot项目中,如何进行添加自定义静态资源访问路径实现对静态资源的访问?

如何配置可以实现在浏览器中配置路径实现对resource资源路径下的index.html个性化定制访问路径 要在Spring Boot项目中配置使特定前缀访问静态资源,可以在application.yml文件中配置路径映射。以下是一个示例配置: 打开你的application.yml文件&#xf…

死灰复燃的 LockBit, “现身说法”计算机安全的重要性

LockBit 死灰复燃 2024年2月,一场全球性的名为 “Cronos 行动” 的执法行动夺取了对 LockBit 勒索组织基础设施的控制权并扰乱了其运营。 但是,就像希腊神话中的九头蛇一样,砍掉一个 LockBit 的头并不重要——它可以迅速再生成多个新的头。…

南京邮电大学运筹学课程实验报告3 整数规划问题求解 指导

一、题目描述 实验三 整数规划问题求解    实验属性: 设计型    实验目的 1.理解图的整数规划问题概念; 2.掌握运筹学软件的使用方法; 3. 掌握整数规划问题求解原理和方法。 实…

MES系统助力塑料制品行业数字化转型

注塑MES系统助力工厂生产力提升具体体现在:覆盖生产全流程;数据自动收集、科学规划排产;优化配送模型、平衡物流运转;严格把控品质、异常自动分析;实时监控设备,保证正常运转;产品快速追溯&…

Linux下vim工具应用

1.简介 Vim(Vi IMproved)是一种高度可配置的文本编辑器,用于有效地创建和更改任何类型的文本。它是从vi发展而来,vi是Unix和类Unix系统上最初的文本编辑器之一。Vim被设计为程序员和文本编辑的爱好者使用,它以其强大的…

广度优先(BFS)

先看一道简单的题&#xff0c;迷宫问题&#xff1a; 洛谷P1746 离开中山路&#xff1a;P1746 离开中山路 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) #include<iostream> #include<cstring> #include<queue> #include <utility> #define N 1002 …

综合监管云平台 DownFile 任意文件读取漏洞复现

0x01 产品简介 综合监管云平台是一种集成了多种先进技术的信息化平台&#xff0c;旨在通过数据采集、分析、预警和应急处理等功能&#xff0c;实现对各类监管对象的全面、高效、精准管理&#xff0c;综合监管云平台利用“互联网物联网”模式&#xff0c;结合云计算、大数据、边…

春招冲刺百题计划|队列

Java基础复习 Java数组的声明与初始化Java ArrayListJava HashMapJava String 类Java LinkedListJava Deque继承LinkedListJava SetJava 队列 第一题&#xff1a;387. 字符串中的第一个唯一字符 class Solution {public int firstUniqChar(String s) {//最简单的方法就是暴力…

p14数组(2)

数组作为函数的参数 冒泡排序 两两比较 void bubble_sort(int arr[],int sz) {int i0;for(i0;i<sz-1;i){//每一趟冒泡排序int j0;for(j0;j<sz-1-i;j){if(arr[j]>arr[j1]){int tmparr[j];arr[j]arr[j1];arr[j1]tmp;}}} } int main(){int arr[]{9,8,7,6,5,4,3,2,1,0}…

关于woocommerce product data tabs, 特别是additional information

woocommerce product data tabs&#xff0c; 也就是默认的这三个&#xff1a; description additional information reviews 包括如何删除&#xff0c;重命名&#xff0c;改显示顺序等等&#xff0c;参考官方文档&#xff1a; https://woocommerce.com/document/editing-p…

C# CvDnn部署CoupledTPS实现旋转图像矫正

C# CvDnn部署CoupledTPS实现旋转图像矫正 目录 说明 效果 模型信息 项目 代码 下载 说明 TPAMI2024 - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond github地址&#xff1a;https://github.com/nie-lang/CoupledTPS 代码实现…

240710_昇思学习打卡-Day22-LSTM+CRF序列标注

240710_昇思学习打卡-Day22-LSTMCRF序列标注 在正式开始LSTMCRF序列标注之前&#xff0c;我们先来了解一下条件随机场&#xff0c;以下仅做简单介绍。 CRF全称Conditional Random Field&#xff0c;按照名字来理解&#xff0c;条件随机&#xff0c;随机输入&#xff0c;条件输…

ReoGrid代替EXCEL显示数据,可视化修改ReoGrid.Mvvm:ReoGrid绑定模型

ReoGrid 是 C&#xff03; 编写的.NET 电子表格控件&#xff08;类似 Excel&#xff09;。支持单元格合并&#xff0c;边框样式&#xff0c;图案背景颜色&#xff0c;数据格式&#xff0c;冻结&#xff0c;公式&#xff0c;宏和脚本执行&#xff0c;表格事件等。支持 Winform\W…

游戏视频是后期配音好还是边录边配 游戏视频怎么剪辑制作才能火 视频剪辑免费软件

游戏视频后期配音是先配还是先剪&#xff1f;游戏视频后期配音没有统一的准则&#xff0c;可以先配&#xff0c;也可以后配&#xff0c;主要是根据内容而定。游戏视频剪辑在游戏玩家中十分流行&#xff0c;那么&#xff0c;游戏视频怎么剪辑制作&#xff1f;下面让我们以具体的…