怎么看出网站是dede做的/百度搜索榜

怎么看出网站是dede做的,百度搜索榜,微信怎么开创公众号,网站建设 需求分析报告1.预训练 相似的任务A、B,任务A已经用大数据完成了训练,得到模型A。 我们利用-特征提取模型的-“浅层参数通用”的特性,使用模型A的浅层参数,其他参数再通过任务B去训练(微调)。 2.统计语言模型 通过条件…

1.预训练

相似的任务A、B,任务A已经用大数据完成了训练,得到模型A。

我们利用-特征提取模型的-“浅层参数通用”的特性,使用模型A的浅层参数,其他参数再通过任务B去训练(微调)。

2.统计语言模型

通过条件概率,解决“完型填空”问题和“预测句子出现概率”问题。

3.神经网络语言模型 -- 为了预测next

就是通过mlp,利用已有的词库将单词编码为onehot * Q矩阵(可学习),拟合一个预测下一个单词的模型。最后输出的softmax维度是词库的维度大小。

softmax(w2(tanh((w1x+b1)))+b2)

x是输入的词编码

缺点:onehot的维度==词库的大小,容易出现维度爆炸。我们希望去训练一个Q去控制词embedding大小。

得出:onehot * Q = V,V向量就能表示一个单词的词向量。且能调整大小、能计算词的余弦相似度。

但是:一个Q矩阵,所有的词都在用?

4.Word2Vec类模型 -- 为了得到词vec

· CBOW

给出一个词的上下文,预测这个词。--完形填空

· Skip-gram

给出词预测上下文。--没啥用

w2v是一种预训练模型,因为这个模型可以预训练好一个Q矩阵,供别的下游任务直接使用,无需重新训练。

而onehot不是预训练,是一一对应的表查询。

但是:词向量不能进行多义词表示。

5.ELMo--解决上述问题

注意双向双层

输入:很普通的w2v词向量E;

输出:融合上下文信息的新词向量T。对于一个同一词,T的编码也会不一样了,而且相关性应该是负的。

但是:lstm不能并行,长期依赖。

6.attention

理解:“Query,Key,Value的概念取自于信息检索系统,举个简单的搜索的例子来说。当你在某电商平台搜索某件商品(年轻女士冬季穿的红色薄款羽绒服)时,你在搜索引擎上输入的内容便是Query。 然后搜索引擎根据Query为你匹配Key(例如商品的种类,颜色,描述等)。 然后根据Query和Key的相似度得到匹配的内容(Value)。”

理解:Q,K,V是三个矩阵。 是 X 输入与 Wq,Wk,Wv 点积的结果。 最开始Wq,Wk,Wv 是随机生成的, 后面通过训练 Wq,Wk,Wv 会不断调整,通过loss 函数进行。 Wq,Wk,Wv 就是需要训练的参数。

理解:每个token都会发出一个Q去询问其他token,点乘他们的K,得到相对的重要性,为了消除较大的K对softmax的影响除以根号dk,再做softmax得到概率后,点乘V,得到具体需要注意多少

  !!从分布的角度解释。

7.self-attention

经典

8.67的区别

· 注意力机制没有规定QKV的来源

· 自注意力规定QKV必须是源于X,只是乘了不同的矩阵,在空间上做了不同的伸缩旋转。

9.self和rnn lstm的比较

rnn:

,x0的信息传的远了就消失了。

lstm:

,通过门,选择性记忆/增强前文的信息。

二者都不能并行,存在长序列依赖问题。

10.mask attention

生成模型是一个单词一个单词的生成,所以对已生成的单词想要做attention的话,attention map会像是下阶梯形矩阵。

11.多头自注意

就是将X分成8块,每个头有自己的QKV,同样得到一个Z,拼接后再经过一个线性变换得到原来大小的Z。

12.位置编码

· 由于attention可以并行计算,导致它不能像rnn一样完全顺序进行计算。

· 而且如果没有位置编码,即使话的顺序是乱的,也不影响attention的计算。所以应该有位置编码来表示语序。加到原来的词向量中。

计算方式:

 对于每个pos的编码,偶数位置用sin奇数位置用cos。2i的目的仅是为了转换为对应的三角函数。

再根据三角函数和差化积:

得到:PE = sin(将posi分为两数之和) = 这两个数的PE的线性组合。

理解为:较大posi的编码中蕴含了较小posi的PE信息。即,相当于递归的意思,后面的pos必须依赖之前的值。

13.transformer框架

seq2seq模型

encode:将输入变成词向量

decode:输入词向量,生成下步预测

N层encoder,代表输入经过了N个encoder逐步增强词向量表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ResNet与注意力机制:深度学习中的强强联合

引言 在深度学习领域,卷积神经网络(CNN)一直是图像处理任务的主流架构。然而,随着网络深度的增加,梯度消失和梯度爆炸问题逐渐显现,限制了网络的性能。为了解决这一问题,ResNet(残差…

【C++】——C++11新特性

目录 前言 1.初始化列表 2.std::initializer_list 3.auto 4.decltype 5.nullptr 6.左值引用和右值引用 6.1右值引用的真面目 6.2左值引用和右值引用比较 6.3右值引用的意义 6.3.1移动构造 6.4万能引用 6.5完美转发——forward 结语 前言 C,这门在系统…

【C++网络编程】第5篇:UDP与广播通信

一、UDP协议核心特性 1. UDP vs TCP ​特性 ​UDP​TCP连接方式无连接面向连接(三次握手)可靠性不保证数据到达或顺序可靠传输(超时重传、顺序控制)传输效率低延迟,高吞吐相对较低(因握手和确认机制&…

ffmpeg+QOpenGLWidget显示视频

​一个基于 ‌FFmpeg 4.x‌ 和 QOpenGLWidget的简单视频播放器代码示例,实现视频解码和渲染到 Qt 窗口的功能。 1)ffmpeg库界面,视频解码支持软解和硬解方式。 硬解后,硬件解码完成需要将数据从GPU复制到CPU。优先采用av_hwf…

20250324-使用 `nltk` 的 `sent_tokenize`, `word_tokenize、WordNetLemmatizer` 方法时报错

解决使用 nltk 的 sent_tokenize, word_tokenize、WordNetLemmatizer 方法时报错问题 第 2 节的手动方法的法1可解决大部分问题,可首先尝试章节 2 的方法 1. nltk.download(‘punkt_tab’) LookupError: *******************************************************…

【VolView】纯前端实现CT三维重建-CBCT

文章目录 什么是CBCTCBCT技术路线使用第三方工具使用Python实现使用前端实现 纯前端实现方案优缺点使用VolView实现CBCT VolView的使用1.克隆代码2.配置依赖3.运行4.效果 进阶:VolView配合Python解决卡顿1.修改VtkThreeView.vue2.新增Custom3DView.vue3.Python生成s…

debug - 安装.msi时,为所有用户安装程序

文章目录 debug - 安装.msi时,为所有用户安装程序概述笔记试试在目标.msi后面直接加参数的测试 备注备注END debug - 安装.msi时,为所有用户安装程序 概述 为了测试,装了一个test.msi. 安装时,只有安装路径的选择,没…

Java Stream两种list判断字符串是否存在方案

这里写自定义目录标题 背景初始化方法一、filter过滤方法二、anyMatch匹配 背景 在项目开发中,经常遇到筛选list中是否包含某个子字符串,有多种方式,本篇主要介绍stream流的filter和anyMatch两种方案,记录下来,方便备…

3. 轴指令(omron 机器自动化控制器)——>MC_SetOverride

机器自动化控制器——第三章 轴指令 12 MC_SetOverride变量▶输入变量▶输出变量▶输入输出变量 功能说明▶时序图▶重启运动指令▶多重启动运动指令▶异常 MC_SetOverride 变更轴的目标速度。 指令名称FB/FUN图形表现ST表现MC_SetOverride超调值设定FBMC_SetOverride_instan…

VLAN章节学习

为什么会有vlan这个技术? 1.通过划分广播域来降低广播风暴导致的设备性能下降; 2.提高网络管理的灵活性和通过隔离网络带来的安全性; 3.在成本不变的情况下增加更多的功能性; VLAN又称虚拟局域网(再此扩展&#xf…

FPGA时钟约束

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、Create_clock 前言 时钟周期约束&#xff0c;就是对时钟进行约束。 一、Create_clock create_clock -name <name> -period <period> -waveform …

spring-security原理与应用系列:建造者

目录 1.构建过程 AbstractSecurityBuilder AbstractConfiguredSecurityBuilder WebSecurity 2.建造者类图 SecurityBuilder ​​​​​​​AbstractSecurityBuilder ​​​​​​​AbstractConfiguredSecurityBuilder ​​​​​​​WebSecurity 3.小结 紧接上一篇文…

OpenHarmony子系统开发 - 电池管理(二)

OpenHarmony子系统开发 - 电池管理&#xff08;二&#xff09; 五、充电限流限压定制开发指导 概述 简介 OpenHarmony默认提供了充电限流限压的特性。在对终端设备进行充电时&#xff0c;由于环境影响&#xff0c;可能会导致电池温度过高&#xff0c;因此需要对充电电流或电…

xy轴不等比缩放问题——AUTOCAD c#二次开发

在 AutoCAD .net api里&#xff0c;部分实体&#xff0c;像文字、属性、插入块等&#xff0c;是不支持非等比缩放的。 如需对AutoCAD中图形进行xyz方向不等比缩放&#xff0c;则需进行额外的函数封装。 选择图元&#xff0c;指定缩放基准点&#xff0c;scaleX 0.5, scaleY …

如何在 HTML 中创建一个有序列表和无序列表,它们的语义有何不同?

大白话如何在 HTML 中创建一个有序列表和无序列表&#xff0c;它们的语义有何不同&#xff1f; 1. HTML 中有序列表和无序列表的基本概念 在 HTML 里&#xff0c;列表是一种用来组织信息的方式。有序列表就是带有编号的列表&#xff0c;它可以让内容按照一定的顺序呈现&#…

Postman最新详细安装及使用教程【附安装包】

一、Postman介绍 ‌Postman是一个功能强大的API测试工具&#xff0c;主要用于模拟和测试各种HTTP请求&#xff0c;支持GET、POST、PUT、DELETE等多种请求方法。‌通过Postman&#xff0c;用户可以发送请求并查看返回的响应&#xff0c;检查响应的内容和状态&#xff0c;从而验…

整合vue+Element UI 开发管理系统

1、 安装 Node.js 和 npm 确保安装了 Node.js 和 npm。可以通过 Node.js 官网 下载。 2、 创建 Vue 项目 安装cli npm install -g vue/cli 使用 Vue CLI 创建一个新的 Vue 项目。 vue create admin-system cd admin-system npm run serve 出现这个页面表示vue创建成功 安…

3. 轴指令(omron 机器自动化控制器)——>MC_Stop

机器自动化控制器——第三章 轴指令 9 MC_Stop变量▶输入变量▶输出变量▶输入输出变量 功能说明▶指令详情▶时序图▶重启运动指令▶多重启动运动指令▶异常 MC_Stop 使轴减速停止。 指令名称FB/FUN图形表现ST表现MC_Stop强制停止FBMC_Stop_instance (Axis :《参数》 ,Execu…

C#中修饰符——abstract、virtual

一、多态简介 在面向对象编程的过程中&#xff0c;多态体现出来的是【一个接口&#xff0c;多个功能】&#xff1b;多态性体现在2个方面&#xff1a; 1、程序运行时&#xff0c;在方法参数、集合或数组等位置&#xff0c;派生类对象可以作为基类的对象处理&#xff1b;这样该对…

Spring Boot + Spring Integration整合MQTT打造双向通信客户端

1. 概述 本文分两个章节讲解MQTT相关的知识&#xff0c;第一部份主要讲解MQTT的原理和相关配置&#xff0c;第二个章节主要讲和Spring boot的integration相结合代码的具体实现&#xff0c;如果想快速实现功能&#xff0c;可直接跳过第一章节查看第二章讲。 1.1 MQTT搭建 为了…