通用大模型研究重点之一:data embedding

研究背景

在过去的传统机器学习中,通常我们是直接处理同一类型的数字类型数据。随着深度学习发展,在图像,文本,语音领域分别取得了超越平均人类水平后,多模态数据的量随着互联网技术指数性增长,近两年自媒体更是推动了多模态数据处理的发展。
那么怎么更加高效的处理不同结构类型并且数量巨大的数据,经过我对《复杂》《规模》《模型思维》等深度的研究,得出如下结论:
(1)场景业务问题抽象成业务模型,这个在很多咨询公司流行(简称:业务问题符号化)
(2)针对抽象问题得到的业务模型和既定的目标探索建模方法(简称:符号问题数字化)
(3)不同的业务类型带有不同的数据特征怎么更加高效的计算(简称:数字问题可计算)
(4)深度学习的优势是解决复杂结构数据并且规模很大的问题(简称:自动化建模学习)

在我学习深度学习过程中,从计算机视觉目标检测,分割,文字识别,文本处理,系统优化,硬件优化,硬件设计都有了涉及后,基于以上我将展开系统的梳理和学习,与共同兴趣的朋友一起研究。

动机

(一):如果统一处理数据
(二):如何高效处理数据

方法

给不同的数据类型建立统一的向量索引参数,也就是将所有输入通过编码进行统一的向量化处理。随着深度学习的发展,我们不仅要表示空间结构信息还需要更好的时间序列结构信息。

最初大家通过建模表示采用0-1编码去表示不同的单词和字符。由于汉字常见在8万个字符,英文常见在100万个字符,也就是基本单位token。日常使用的汉字5000个左右。
随着这项工作推进,发现这种编码方法存在太多的0和极少的1表示,这将导致神经网络在连接过程针对下一个和上一个的存在可能性概率预测输出结果导致结构单元参数冗余,同时出现了另外一个问题两个相近意思的文字对于算法来说还是无法表达之间的关系。

那么怎么更好的通过同一个字符在不同的场景(也就是通常说的维度)上分析,怎么获得更高的概率。那么我们将需要通过不同的维度概率的向量让模型去学习,这样embeddings就产生了。

那么首选我们来介绍一种相对经典的结构:自编码器VAE
编码器e对原始特征x进行编码,得到中间层表示e(x)向量,解码器对中间层向量进行重构得到原始特征d [e(x)],通过不断训练计算损失优化原始输入特征和重构特征(核心思想是对数据压缩同时保持信息量最大)。

那么在编解码中通过反向传播误差更新权重,如果解码器的逆变换在没有重建损失情况下降维,这种信息空间缺乏可解释的利用结构让规则变得混乱,可能编码生成内容奇特。
那么隐含层的信息空间在规则性和结构化上存在如下缺陷:
初始数据本身分布的依赖,隐空间的大小范围,编码器本身结构太自由出现无损解码过拟合,隐含层空间信息映射部分出现大量无效内容向量表示,如何保证高效的隐含层有序规则引入了显式正则化方法VAE更新AE编码生成,这个方向主要的研究热点是将输入编码为一个概率分布的隐含层空间,局部通过方差控制,全局由均值控制。

接下来我们简单介绍一下word2vec实现word embedding
在word embedding发展过程中item embedding,entity embedding,graph embedding,categorical variables embedding,position embedding,segment embedding,由于原来的word embedding是静态的,那么在下游任务如果将翻译理解转为摘要生成就效果很差。随着BERT,GPT,XLnet,T5,ViT,CLIP,BLIP发展实现了动态预训练模型可以微调下游任务获得更好效果。

self attention,seq2seq,transformer等基础架构获得重大突破代替CNN,RNN。而在这个过程中用向量表示内容或实体对象需要一个建模方法。

核心问题

data embedding

通过embedding对任何计算机所能输入的实体对象进行向量化表示。但是在transformer中由于它的编码过程由于self attention机制需要计算输出序列中每个token与所有token之间相关性,这种计算的时间和空间复杂度随着输入序列长度成平方。
因此长度一旦变化,所需消耗的计算资源和存储资源指数增长,导致计算效率和性能直线下降。所以经过实验他们发现输出序列长度在512个token内在大多数任务上表现较好,按照常规的硬件和模型参数transformer不能直接处理那些需要上下文内容的任务,这种context有长文本理解,文档摘要生成。

OpenAI官方给出的案例是如何通过embedding来解决长文本输入问题,最初在Ada模型上有了很好应用,目前已经广泛应用在不同产品。
如何基于embedding让大模型解决输入长度影响的问题。目前主流生成方法的研究和存储方法的研究,一种是通过神经网络将字符token映射到向量空间;一种是通过共现矩阵让模型获得相关性;在第二代的ada模型上他们通过输入8191个tokens实现输出1536维向量满足下游模型学习。在这个过程中目前主流的开源向量数据库我们使用了Milvus。

随着通用人工智能技术发展,将深度学习推到认知计算时候,我们需要设计更加高效的多模态数据向量化方法:Flash embedding!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/639772.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式 ID 的几种实现方式

随着互联网技术的快速发展,分布式系统在各个领域得到了广泛的应用。分布式 ID 是分布式系统中的一种重要概念,用于唯一标识系统中生成的各种数据。在分布式环境下,如何高效、可靠地生成分布式 ID 是一个具有挑战性的问题。本文将介绍几种常见…

2024最新软件测试面试题合集

1、前端和后端有什么区别 前端能够从 App 屏幕和浏览器上看到的东西。例如,你所看到的内容、按钮、图片,它们都属于前端。 后端就是那些你在屏幕上看不到但又被用来为前端提供支持的东西。网站的后端涉及搭建服务器、保存和获取数据,以及用于…

自定义注解与拦截器实现不规范sql拦截(自定义注解填充插件篇)

在自定义注解与拦截器实现不规范sql拦截(拦截器实现篇)中提到过,写了一个idea插件来辅助对Mapper接口中的方法添加自定义注解,这边记录一下插件的实现。 需求简介 在上一篇中,定义了一个自定义注解对需要经过where判…

[足式机器人]Part2 Dr. CAN学习笔记- Kalman Filter卡尔曼滤波器Ch05

本文仅供学习使用 本文参考: B站:DR_CAN Dr. CAN学习笔记 - Kalman Filter卡尔曼滤波器 Ch05 1. Recursive Algirithm 递归算法2. Data Fusion 数据融合Covarince Matrix协方差矩阵State Space状态空间方程 Observation观测器3. Step by step : Deriatio…

【Java】面向对象之继承超级详解!!

文章目录 前言一、继承1.1 继承的概念1.1.1继承的语法 1.2 父类成员访问1.2.1 子类中访问父类的成员变量1.子类和父类中没有同名的成员变量2.子类和父类中有同名的成员变量 1.2.2子类中访问父类的成员方法成员方法名不同成员方法名字相同 1.3 super关键字1.4 子类构造方法1.5 继…

Python零基础教程5.1——Python官方自带Turtle.demo

官方装13最为致命 牛!Python自带画图demo引言DEMO有什么?总结 牛!Python自带画图demo 引言 我的电脑不是换新了嘛 所以 不得不重新下载Python 这一下 不得了 我下载了Python3.11.7这个版本 然后按照惯例 打开IDEL 平平无奇 但 我一不小心…

html 中video实现切换视频自动播放

需求 vue2实现的网页中播放视频&#xff0c;主要代码如下&#xff1a; <video :src"question.videoPath" controls object-fit"contain"></video> 现在遇到的问题的&#xff0c;视频切换后要手动点击才能播放&#xff0c;是否可以实现切换视频…

特斯拉开年再降价,2024年的汽车市场还会好吗?

“等等派”再度胜利&#xff01;1月12日&#xff0c;特斯拉中国官宣Model 3和Model Y降价。其中&#xff0c;Model 3焕新版下降15500元&#xff0c;Model 3长续航焕新版下调11500元&#xff1b;特斯拉Model Y后轮驱动版售价下调7500元&#xff0c;特斯拉Model Y长续航版售价下调…

《GitHub Copilot 操作指南》课程介绍

第1节&#xff1a;GitHub Copilot 概述 一、什么是 GitHub Copilot 什么是 GitHub Copilot GitHub Copilot是GitHub与OpenAI合作开发的编程助手工具&#xff0c;利用机器学习模型生成代码建议。它集成在开发者的集成开发环境&#xff08;IDE&#xff09;中&#xff0c;可以根…

Excel象限图

Excel象限图 1、背景描述2、象限图&#xff08;散点图&#xff09;3、象限图&#xff08;气泡图&#xff09; 1、背景描述 平常我们在工作中做图表时&#xff0c;使用最多的就是柱状形、折线图、饼图&#xff0c;这些图表主要为了展示趋势、对比和构成&#xff0c;但有时候我们…

说说对React中类组件和函数组件的理解?有什么区别?

说说对React中类组件和函数组件的理解&#xff1f;有什么区别&#xff1f; 回答思路&#xff1a;类组件-->函数组件-->区别类组件函数组件区别编写形式不同&#xff1a;状态管理不同&#xff1a;生命周期不同&#xff1a;调用方式的不同&#xff1a;获取渲染的值的方式不…

文本生成中的解码器方法

一.解码器的基本介绍 在文本生成任务中&#xff0c;解码器是生成序列的关键组件。解码器的目标是从先前生成的标记或隐藏状态中生成下一个标记。有几种方法用于设计文本生成中的解码器&#xff0c;以下是一些常见的解码器方法&#xff1a; Teacher Forcing&#xff08;教师强…

自己动手造一个状态机

自己动手造一个状态机 引言有限自动状态机 (FSM)五要素应用场景优势 开源产品造个轮子改造点Looplab fsm示例演示实现解析 改造过程 引言 有限自动状态机 (Finite-state machine , FSM) 通常用来描述某个具有有限个状态的对象&#xff0c;并且在对象的生命周期中组成了一个状态…

flink基本概念

1. Flink关键组件: 这里首先要说明一下“客户端”。其实客户端并不是处理系统的一部分&#xff0c;它只负责作业的提交。具体来说&#xff0c;就是调用程序的 main 方法&#xff0c;将代码转换成“数据流图”&#xff08;Dataflow Graph&#xff09;&#xff0c;并最终生成作业…

堆详解与优先级队列

导言&#xff1a; 我们知道队列是一种先进先出(FIFO)的数据结构&#xff0c;但是现实情况中&#xff0c;操作的数据有可能会有优先级&#xff0c;优先级高的数据要先出队。例如&#xff0c;医院的军人优先等等。而为此应运而生的就是优先级队列&#xff0c;java中可以使用Prio…

力扣hot100 相交链表 超全注释 满级表达

Problem: 160. 相交链表 文章目录 思路复杂度&#x1f496; Ac Code 思路 &#x1f468;‍&#x1f3eb; 参考题解 &#x1f469;‍&#x1f3eb; 参考图解 复杂度 时间复杂度: O ( n m ) O(nm) O(nm) 空间复杂度: 添加空间复杂度, 示例&#xff1a; O ( 1 ) O(1) O(…

详谈c++智能指针!!!

文章目录 前言一、智能指针的发展历史1.C 98/03 的尝试——std::auto_ptr2.std::unique_ptr3.std::shared_ptr4.std::weak_ptr5.智能指针的大小6.智能指针使用注意事项 二、智能指针的模拟实现三、C11和boost中智能指针的关系 前言 C/C 语言最为人所诟病的特性之一就是存在内存…

Docker是什么

docker本质 Docker 本质其实是 LXC 之类的增强版&#xff0c;它本身不是容器&#xff0c;而是容器的易用工具。容器是 linux 内核中的技术&#xff0c;Docker 只是把这种技术在使用上简易普及了。Docker 在早期的版本其核心就是 LXC 的二次封装发行版。 Docker 作为容器技术的…

开发第一个Flutter App需要注意什么

Flutter这些年发展的很快&#xff0c;特别是在 Google 持续的加持下&#xff0c;Flutter SDK 的版本号已经来到了 3开头&#xff0c;也正式开始对 Windows、macOS 和 Linux 桌面环境提供支持。如果从 Flutter 特有的优势来看&#xff0c;我个人认为主要是它已经几乎和原生的性能…