Transformer and set Trasformer

1.Transformer

在这里插入图片描述
在这里插入图片描述

  • multihead attention block:MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)MAB(X,Y)=LayerNorm(H+rFF(H))\\ H=LayerNorm(X+multihead(X,Y,Y;\omega)MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)
    * Attention:Att(Q,K,Vl;ω)=ω(QKT)VAtt(Q,K,Vl;\omega)=\omega(QK^T)VAtt(Q,K,Vl;ω)=ω(QKT)V
    * multi:multihead(Q,K,V;λ,ω)=concat(O1,...,Oh)WOmultihead(Q,K,V;\lambda,\omega)=concat(O_1,...,O_h)W^Omultihead(Q,K,V;λ,ω)=concat(O1,...,Oh)WO

  • self-attention

    • self-attention:Q=Wqx;K=Wkx;V=WvxQ=W_qx;K=W_kx;V=W_vxQ=Wqx;K=Wkx;V=Wvx
  • Mask:解码第i个单词,只知道第i-1及之前的信息,然后与self-attention 一致

    • 被mask的为1:因为att+softmax之后会变成0
      在这里插入图片描述
  • encoder-decorder Attention

    • K,V使用encoder,Q用上一层的输出
  • 除根号:
    在这里插入图片描述
    在这里插入图片描述

1.1 PE

在这里插入图片描述

1.2优点

  • 并行
  • 无PE则是词袋模型
  • 重点self-attention

set transformer

1.1 19年ICML::Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks

  • problem:set-input
  • 需求:
    • 排列不变性
    • 可输入任意尺寸集合
  • 与transformer区别:
    • 不输入PE
    • decoder第一个self-attention改为:pooling
  • 公式
    • SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)–说是set attention实际是self-attention?$
      • 时间复杂度O(n^2)$
    • 改进,降低空间复杂度ISAB(X)=MAB(X,H)∈Rn×dwhereH=MAB(I,X)∈Rm×d,I是可训练参数ISAB(X)=MAB(X,H)\in R^{n\times d}\\ where H=MAB(I,X)\in R^{m\times d},I是可训练参数ISAB(X)=MAB(X,H)Rn×dwhereH=MAB(I,X)Rm×d,I
      • 时间复杂度O(mn)O(mn)O(mn)
      • 降维了大概
    • Pooling,可训练的:PMAk(Z)=MAB(S,rFF(Z)),S∈Rk×d,Z是encoder的输出PMA_k(Z)=MAB(S,rFF(Z)),S\in R^{k\times d},Z是encoder的输出PMAk(Z)=MAB(S,rFF(Z))SRk×d,Zencoder

1.2 pool:另一种pool的方式

  • code
  • ICLR2020: FSPOOL: LEARNING SET REPRESENTATIONS WITH FEATUREWISE SORT POOLING
  • loss:排序后可用 MSE

1.2.1集合输出的损失函数

  • 都具有排列不变性
  • O(n3)O(n^3)O(n3)的匈牙利算法:找最优匹配
    • Joint Entity and Relation Extraction with Set Prediction Networks用的也是这个?
      在这里插入图片描述
  • O(n^2):找最像的
    在这里插入图片描述

1.2.2排序使得模型具备排列不变性:feature sort pooling

  • 先对每一维度的特征排序,将排序后的特征加权求和。
  • 排序后就无需再计算loss前进行分配,而分配的复杂度高
  • why 按行排序???为什么不对object排序??
  • 因为这样可以忽略object的个数问题。

1.2.2.1 fixed-size sets

  • 先按行排序(对特征排序),这样每一列不能单独代表一个object,但是特征是解耦的,所以排序不会丢失信息
    • 排序不可微分,但可以梯度反传(像最大池化一样)

在这里插入图片描述在这里插入图片描述

1.2.2.2 VARIABLE-SIZE SETS

在这里插入图片描述

  • W:是个固定长度的向量
    在这里插入图片描述
    在这里插入图片描述

1.2.3 decoder

  • 自编码器,使用逆排序对齐x
  • loss

1.2 对抗学习的set transformer:loss

  • ICML2020 Spotlight:Generative Adversarial Set Transformers
    • 用对抗学习充当loss

参考

【1】transformer
【2】set transformer
【3】fs pool

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481464.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「图神经网络复杂图挖掘」 的研究进展

来源:专知图神经网络对非欧式空间数据建立了深度学习框架,相比传统网络表示学习模型,它对图结构能够实施更加深层的信息聚合操作.近年来,图神经网络完成了向复杂图结构的迁移,诞生了一系列基于复杂图的图神经网络模型. 然而,现有综述文章缺乏对复杂图神经网络全面、…

知识复习:nlp算法面试汇总

文章目录2.相似度3.正则化3.1 L13.2 过拟合和欠拟合3.2.1 dropout3.3 欠拟合4. 激活函数4.1 sigmoid5.Bert5.1 Bert原版5.1.2 bert的训练5.2改进5.2.1缺点改进5.2.2任务改进5.3 参数量5.3 transformer5.3.1 多头注意力机制6.搜索6.1pagerank6.2 文本匹配7.神经网络基础7.1Norm7…

光子深度学习:编码到光波上的机器学习模型的组件

编辑 | 萝卜皮由于功率、处理和内存的限制,高级机器学习模型目前无法在智能传感器和无人机等边缘设备上运行。麻省理工学院的研究人员介绍了一种基于跨网络的离域模拟处理的机器学习推理方法。在这种被称为 Netcast 的方法中,基于云的「智能收发器」将重…

【实体对齐·综述】A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs

文章目录模板的简述简述1.Introduction2. preliminatries2.1 literature review2.1.1 knowledge graph embedding2.1.2 Conventional Entity Alignment2.1.3 embedding-based entity alignment2.2 Categorization of Techniques2.2.1 Embedding Module2.2.1.1 关系嵌入2.2.1.2 …

深度学习优化背后包含哪些数学知识?

来源:图灵人工智能深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。一般而言…

2022 剑桥 AI 全景报告出炉:扩散模型是风口,中国论文数量为美国的 4.5 倍

来源:FUTURE远见选编:FUTURE | 远见 闵青云 文:AI科技评论 近日,剑桥大学的2022年 AI 全景报告(《State of AI Report 》)出炉!报告汇总和聚焦了过去一年里 AI 行业中炙手可热的事件&#xff0c…

实体对齐汇总

文章目录1.综述2.技术论文3.汇总3.1定义定义统一EA3.2 评价指标3.3 数据集3.4 数据预处理技术3.5 索引3.6 对齐3.6.1 按属性相似度/文本相似度做:成对实体对齐3.6.2 协同对齐:考虑不同实体间的关联3.6.2.1 局部实体对齐3.6.2.2 全局实体对齐3.6.3 基于em…

博后出站即任985教授!他致力于寻找人类五感世界的最后一块拼图

来源:iNature两年前,闫致强从底蕴深厚的复旦大学生命科学学院“跳”到尚处于新生期的深圳湾实验室,“蜗居”在一栋商业大楼里,和团队在这里寻找人类感知世界的最后一块拼图。在亚里士多德定义的五种感官中,介导嗅觉、味…

【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录0.总结1.动机2. 贡献方法3.应用场景4.其他模型5.数据集6.效果以下的是组内比较BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [ paper][ code]0.总结 BootEA笔记 BootE…

一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化...

编辑 | 萝卜皮深入了解各类化学物质的最佳一般反应条件,可以加速创新和药物发现,并使复杂的化学过程自动化且易于使用,对生物医药、材料研究具有重要意义。然而,有机反应的一般条件很重要但很少见,以往识别它们的研究通…

【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

文章目录0.总结1.Introduction2.Preliminaries2.2 Scope and Related work2.2.1 Entity Linkingentity disambiguation2.2.2 Entity resolutionentity matchingdeduplicationrecord linkage2.2.3 Entity resolution on KGs2.2.4 EA3.general框架3.1 Embedding Learning Module3…

汽车生产线上的工业机器人是如何工作的?

来源:宝石部落 责任编辑:朱光明 审核人:王颖十年来,随着机器人在制造业的普遍应用,我国工业机器人产业规模快速增长。2021年,我国工业机器人产量达36.6万台,比2015年增长了10倍,市场…

【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment

文章目录1.动机2.输入输出3.相关工作4.模型4.1 GCN4.2 approximating relation representations4.3 joint entity and relation alignmentHGCN: “Jointly Learning Entity and Relation Representations for Entity Alignment”. Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wa…

Science:海马中如何实现选择性地招募神经元来巩固记忆?

来源:brainnews作者:brainnews创作团队神经元网络活性的标志是选择性地将神经元招募到活跃的集合中,形成暂时稳定的活动模式。在哺乳动物的海马体中这种神经元集合在ripples(~200Hz)振荡期间反复激活,支持空…

往年笔试题

文章目录1 概率1.1 条件概率.每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相…

量子生物学的未来:量子理论如何帮助理解生命?

导语2022年诺贝尔物理学奖授予了关于量子信息科学的基础性研究。一百多年前,量子革命为我们带来了晶体管和激光,今天,基于量子信息的新技术正在让我们进入一个新的量子信息时代。事实上,已有研究表明,在生命过程中也存…

【量化投资1】

文章目录0.相关包及常识1.股票买卖收益分析2.双均线策略2.1 均线2.2 双均线2.2.1 金叉死叉的获取量化投资0.相关包及常识 股票的买入卖出:最少为一手,100股 tushare open:开盘价格,close:收盘价格 1.股票买卖收益分析 每次至少买入1手最后…

超高效人工光电神经元成真?速度比自然神经元快3万倍,研究登Nature子刊

来源:悦智网作者:Charles Q. Choi翻译:机器之心原文链接:https://spectrum.ieee.org/neuromorphic-computing-superconducting-synapseAI系统越来越受限于为实现其功能的硬件。现在,一种新的超导光子电路问世&#xff…

2022年工业机器人的5大应用行业

来源:工业机器人前言截止至2022年,在中国60%的工业机器人应用于汽车制造业,其中50%以上为焊接机器人;在发达国家,汽车工业机器人占机器人总保有量的53%以上。‍本文梳理了五大应用行…

【java spring学习1】IOC理论,spring用DI实现IOC

狂神说java spring:让java 开发更容易 IOC:控制反转 AOP:面向切面编程(业务面) 2. spring组成和扩展 2.1spring 组成 Sprint AOP ORM:对象关系映射 Context:UI界面、邮件验证等 2.4 拓展 学习路线: spring boot:构…