深度学习进阶

Transformer

  1. MHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;
  2. 时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。

卷积

CNN

  1. 卷积核权值共享,因此具有平移不变性,减少参数量
  2. 为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。

图卷积和边缘卷积

图卷积

  1. 图卷积是在论文《Semi-supervised Classification with Graph Convolutional Networks》中提出来的;
  2. 图卷积的核心是X_i+1 = A X_i W,其中A是邻接矩阵,W是线性层;
  3. 图卷积是对节点进行特征计算,然后更新节点信息。

边缘卷积

  1. 边缘卷积是在论文《DGCNN : Dynamic Graph CNN for Learning on Point Clouds》中提出来的;
  2. 边缘卷积的核心是 X_i+1 = ei1 ~ ei2 ~ … ~ ein,其中e表示边缘特征,是对边连接的点的特征进行非线性变化得到的; ~ 表示一种具有排列不变性的操作,如max, mean, sum等;
  3. 边缘卷积是对边进行特征计算,然后更新节点信息。
  4. 边缘卷积Edge Conv和动态图卷积DGCNN不是一个东西:论文之所以用了边缘卷积,并把自己的称为动态图卷积,是因为进行边缘卷积之后,点在高维空间中的位置发生了变化,那么由k近邻得到的邻居节点也和上一层的邻居节点不一样了,导致图的连接关系不一样,所以叫动态图。

激活函数

sigmoid

  1. 经常用于分类场景,作为概率输出

relu

  1. 经常作为隐藏层激活函数,缓解梯度消失
  2. 为什么不能完全解决梯度消失:小于0的部分没有梯度,传播受限;

损失函数

  1. 为什么会出现loss spike:loss spike是一种训练过程中loss突然猛烈增大的现象。可能原因是模型浅层参数和深层参数会形成依赖关系,但是一般浅层参数变化慢,深层参数变化快,当深层参数和浅层参数逐渐匹配后,loss逐渐减小;但是如果突然输入一个分布很不一样的训练数据,浅层参数有一定变化,导致下游数据分布变化较大,深层参数不匹配,导致模型突然出现较高loss。参考:https://blog.csdn.net/qq_27590277/article/details/135493299

需要能够

  1. 手写MHA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45643.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch基础概念

Elasticsearch 是一款开源的,ESTful风格的 分布式搜索、存储、分析引擎; 常见的使用场景 网站搜索,代码搜索等日志管理与分析,应用系统性能分析,安全指标监控等数据库同步,将数据库某个表的数据同步到elasticsearch上然后提供搜索服务 ES基本概念 文档 我们向elasticsearch存…

【活动预告】Apache IoTDB TsFile 智慧能源应用“上会”啦!

2024 年,站在中国数字经济产业升级和数据要素市场化建设的时代交汇点上,为进一步推动全球数据库产业进步,由中国通信标准化协会、大数据技术标准推进委员会主办的“2024 可信数据库发展大会”将于 2024 年 7 月 16-17 日,在北京朝…

跟着李沐学AI:Softmax回归

回归 vs 分类 回归用于估计一个连续值 分类用于预测一个离散类别 两个经典的数据集: MNIST数据集: MNIST(Modified National Institute of Standards and Technology)数据集是一个广泛应用于机器学习和深度学习领域的手写数字…

车载视频监控管理方案:无人驾驶出租车安全出行的保障

近日,无人驾驶出租车“萝卜快跑”在武汉开放载人测试成为热门话题。随着科技的飞速发展,无人驾驶技术已逐渐从概念走向现实,特别是在出租车行业中,无人驾驶出租车的推出将为公众提供更为安全、便捷、高效的出行服务。 视频监控技…

【Linux杂货铺】2.进程优先级

1.进程优先级基本概念 进程优先级是操作系统中用于确定进程调度顺序的一个指标。每个进程都会被分配一个优先级,优先级较高的进程会在调度时优先被执行。进程优先级的设定通常根据进程的重要性、紧急程度、资源需求等因素来确定。操作系统会根据进程的优先级来决定进…

免费开源的工业物联网(IoT)解决方案

什么是 IoT? 物联网 (IoT) 是指由实体设备、车辆、电器和其他实体对象组成的网络,这些实体对象内嵌传感器、软件和网络连接,可以收集和共享数据。 IoT 设备(也称为“智能对象”)范围广泛,包括智能恒温器等…

服务器数据出现丢失该怎样恢复?

相信在目前的互联网社会中,大多数的企业都离不开服务器的支持,企业相关的业务信息与数据都存放在服务器中,那当服务器出现故障导致数据信息丢失或者是损坏时,我们应该做出哪些措施来进行数据恢复呢? 当服务器出现故障时…

golang 什么是内存逃逸?

什么是内存逃逸? golang程序变量会携带有一组校验数据,用来证明它的整个生命周期是否在运行时完全可知。如果变量通过了这些校验,它就可以在栈上分配。否则就说它 逃逸 了,必须在堆上分配。 能引起变量逃逸到堆上的典型情况&…

PHP企业工商年报大师微信小程序系统源码

🌟轻松搞定年报难题!💼 🚀【一键直达,年报不再繁琐】 还在为每年的企业工商年报而头疼吗?繁琐的表格、复杂的流程,让人望而却步?现在有了“企业工商年报大师”微信小程序&#xff…

Docker:基础概念、架构与网络模式详解

1.Docker的基本概念 1.1.什么是docker Docker是一个用于开发,交付和运行应用程序的开放平台.docker使您能够将应用程序域基础框架分开,以便你可以快速开发交付软件.使用docker,你可以管理你的基础架构以管理应用程序相同的方式.通过利用docker用于交付,测试和部署代码的方法,你…

vue3+antd+g2plot快速入门

创建项目 pnpm create vite选择vue和JavaScript 安装依赖 pnpm i ant-design-vue pnpm i antv/g2plot pnpm i vue-router完整代码 package.json {"name": "frontend","private": true,"version": "0.0.0","type&q…

解决Ubuntu 22.04 vscode搜狗拼音输入无法输入中文

关闭vscode 编辑~/.bashrc,添加以下内容 export GTK_IM_MODULExim export QT_IM_MODULExim export XMODIFIERSimfcitx source ~/.bashrc && code 重新加载环境变量后启动code,即可以正常使用搜狗拼音输入法了

MongoDB - 查询操作符:比较查询、逻辑查询、元素查询、数组查询

文章目录 1. 构造数据2. MongoDB 比较查询操作符1. $eq 等于1.1 等于指定值1.2 嵌入式文档中的字段等于某个值1.3 数组元素等于某个值1.4 数组元素等于数组值 2. $ne 不等于3. $gt 大于3.1 匹配文档字段3.2 根据嵌入式文档字段执行更新 4. $gte 大于等于5. $lt 小于6. $lte 小于…

java内部类的本质

定义在类内部,可以实现对外部完全隐藏,可以有更好的封装性,代码实现上也往往更为简洁。 内部类可以方便地访问外部类的私有变量,可以声明为private从而实现对外完全隐藏。 在Java中,根据定义的位置和方式不同&#xf…

什么是IOT 可编程控制系统

IOT可编程控制系统GF-MAXCC是一种基于物联网(Internet of Things, IoT)技术的可编程中央控制主机。它集成了多种先进的技术和功能,能够在物联网系统中发挥关键作用,实现对多种设备的集中管理和控制。 一、定义与概述 定义&#x…

虚幻引擎ue5如何调节物体锚点

当发现锚点不在物体上时,如何调节瞄点在物体上。 步骤1:按住鼠标中键拖动锚点,在透视图中多次调节锚点位置。 步骤2:在物体上点击鼠标右键点击-》锚定--》“设置为枢轴偏移”即可。

vue3的服务端渲染实战项目(1)共12节

一直在研究🧐Vue3的改变和提升,没有使用SSR怎么说是完全理解呢,接下来全套章节就带你一步一步了解服务端渲染的知识,后续对官网和项目的页面性能的考虑也会多一些思路。首先,老套路😄三连问:什么…

昇思25天学习打卡营第二十四天|基于MindSpore通过GPT实现情感分类

基于MindSpore通过GPT实现情感分类 导入数据集 import osimport mindspore from mindnlp._legacy.engine import Evaluator, Trainer from mindnlp._legacy.engine.callbacks import BestModelCallback, CheckpointCallback from mindnlp._legacy.metrics import Accuracy fr…

219.贪心算法:柠檬水找零(力扣)

代码解决 class Solution { public:bool lemonadeChange(vector<int>& bills) {int num50, num100; // 初始化5美元和10美元的计数器for(int i0; i < bills.size(); i) // 遍历所有账单{if(bills[i]5) // 如果账单是5美元{num5; // 增加5美元的计数continue; // …

数据链路层协议 ------------- 以太网协议

链路层解决的问题 IP拥有将数据跨网络从一台主机送到另一台主机的能力&#xff0c;但IP并不能保证每次都能够将数据可靠的送到对端主机&#xff0c;因此IP需要上层TCP为其提供可靠性保证&#xff0c;比如数据丢包后TCP可以让IP重新发送数据&#xff0c;最终在TCP提供的可靠性机…