深度学习进阶

深度学习进阶

diannao/2025/4/27 14:59:07/文章来源:https://blog.csdn.net/eepii/article/details/140268676

Transformer

MHA的好处：Multi head attention能够让模型关注到不同的信息，增强表达能力，提高模型性能；
时间复杂度是O(N2)，因为每个词都需要和其他所有词进行Attention操作，所以是N2。

卷积

CNN

卷积核权值共享，因此具有平移不变性，减少参数量
为什么基本不用大卷积核了？（1）大卷积核参数量更大；（2）计算更复杂；（3）可以用多个小卷积核进行平替，且非线性效果好。

图卷积和边缘卷积

图卷积

图卷积是在论文《Semi-supervised Classification with Graph Convolutional Networks》中提出来的；
图卷积的核心是X_i+1 = A X_i W，其中A是邻接矩阵，W是线性层；
图卷积是对节点进行特征计算，然后更新节点信息。

边缘卷积

边缘卷积是在论文《DGCNN : Dynamic Graph CNN for Learning on Point Clouds》中提出来的；
边缘卷积的核心是 X_i+1 = ei1 ~ ei2 ~ … ~ ein，其中e表示边缘特征，是对边连接的点的特征进行非线性变化得到的； ~ 表示一种具有排列不变性的操作，如max, mean, sum等；
边缘卷积是对边进行特征计算，然后更新节点信息。
边缘卷积Edge Conv和动态图卷积DGCNN不是一个东西：论文之所以用了边缘卷积，并把自己的称为动态图卷积，是因为进行边缘卷积之后，点在高维空间中的位置发生了变化，那么由k近邻得到的邻居节点也和上一层的邻居节点不一样了，导致图的连接关系不一样，所以叫动态图。

激活函数

sigmoid

经常用于分类场景，作为概率输出

relu

经常作为隐藏层激活函数，缓解梯度消失
为什么不能完全解决梯度消失：小于0的部分没有梯度，传播受限；

损失函数

为什么会出现loss spike：loss spike是一种训练过程中loss突然猛烈增大的现象。可能原因是模型浅层参数和深层参数会形成依赖关系，但是一般浅层参数变化慢，深层参数变化快，当深层参数和浅层参数逐渐匹配后，loss逐渐减小；但是如果突然输入一个分布很不一样的训练数据，浅层参数有一定变化，导致下游数据分布变化较大，深层参数不匹配，导致模型突然出现较高loss。参考：https://blog.csdn.net/qq_27590277/article/details/135493299

需要能够

手写MHA

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/45643.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Elasticsearch基础概念

Elasticsearch基础概念

Elasticsearch 是一款开源的,ESTful风格的分布式搜索、存储、分析引擎; 常见的使用场景网站搜索,代码搜索等日志管理与分析,应用系统性能分析,安全指标监控等数据库同步,将数据库某个表的数据同步到elasticsearch上然后提供搜索服务 ES基本概念文档我们向elasticsearch存…

阅读更多...

【活动预告】Apache IoTDB TsFile 智慧能源应用“上会”啦！

【活动预告】Apache IoTDB TsFile 智慧能源应用“上会”啦！

2024 年，站在中国数字经济产业升级和数据要素市场化建设的时代交汇点上，为进一步推动全球数据库产业进步，由中国通信标准化协会、大数据技术标准推进委员会主办的“2024 可信数据库发展大会”将于 2024 年 7 月 16-17 日，在北京朝…

阅读更多...

跟着李沐学AI：Softmax回归

跟着李沐学AI：Softmax回归

回归 vs 分类回归用于估计一个连续值分类用于预测一个离散类别两个经典的数据集： MNIST数据集： MNIST（Modified National Institute of Standards and Technology）数据集是一个广泛应用于机器学习和深度学习领域的手写数字…

阅读更多...

车载视频监控管理方案：无人驾驶出租车安全出行的保障

车载视频监控管理方案：无人驾驶出租车安全出行的保障

近日，无人驾驶出租车“萝卜快跑”在武汉开放载人测试成为热门话题。随着科技的飞速发展，无人驾驶技术已逐渐从概念走向现实，特别是在出租车行业中，无人驾驶出租车的推出将为公众提供更为安全、便捷、高效的出行服务。视频监控技…

阅读更多...

【Linux杂货铺】2.进程优先级

【Linux杂货铺】2.进程优先级

1.进程优先级基本概念进程优先级是操作系统中用于确定进程调度顺序的一个指标。每个进程都会被分配一个优先级，优先级较高的进程会在调度时优先被执行。进程优先级的设定通常根据进程的重要性、紧急程度、资源需求等因素来确定。操作系统会根据进程的优先级来决定进…

阅读更多...

免费开源的工业物联网（IoT）解决方案

免费开源的工业物联网（IoT）解决方案

什么是 IoT？ 物联网 (IoT) 是指由实体设备、车辆、电器和其他实体对象组成的网络，这些实体对象内嵌传感器、软件和网络连接，可以收集和共享数据。 IoT 设备（也称为“智能对象”）范围广泛，包括智能恒温器等…

阅读更多...

服务器数据出现丢失该怎样恢复？

服务器数据出现丢失该怎样恢复？

相信在目前的互联网社会中，大多数的企业都离不开服务器的支持，企业相关的业务信息与数据都存放在服务器中，那当服务器出现故障导致数据信息丢失或者是损坏时，我们应该做出哪些措施来进行数据恢复呢？ 当服务器出现故障时…

阅读更多...

golang 什么是内存逃逸？

golang 什么是内存逃逸？

什么是内存逃逸？ golang程序变量会携带有一组校验数据，用来证明它的整个生命周期是否在运行时完全可知。如果变量通过了这些校验，它就可以在栈上分配。否则就说它逃逸了，必须在堆上分配。能引起变量逃逸到堆上的典型情况&…

阅读更多...

PHP企业工商年报大师微信小程序系统源码

PHP企业工商年报大师微信小程序系统源码

🌟轻松搞定年报难题！💼 🚀【一键直达，年报不再繁琐】还在为每年的企业工商年报而头疼吗？繁琐的表格、复杂的流程，让人望而却步？现在有了“企业工商年报大师”微信小程序&#xff…

阅读更多...

Docker：基础概念、架构与网络模式详解

Docker：基础概念、架构与网络模式详解

1.Docker的基本概念 1.1.什么是docker Docker是一个用于开发,交付和运行应用程序的开放平台.docker使您能够将应用程序域基础框架分开,以便你可以快速开发交付软件.使用docker,你可以管理你的基础架构以管理应用程序相同的方式.通过利用docker用于交付,测试和部署代码的方法,你…

阅读更多...

vue3+antd+g2plot快速入门

vue3+antd+g2plot快速入门

创建项目 pnpm create vite选择vue和JavaScript 安装依赖 pnpm i ant-design-vue pnpm i antv/g2plot pnpm i vue-router完整代码 package.json {"name": "frontend","private": true,"version": "0.0.0","type&q…

阅读更多...

解决Ubuntu 22.04 vscode搜狗拼音输入无法输入中文

解决Ubuntu 22.04 vscode搜狗拼音输入无法输入中文

关闭vscode 编辑~/.bashrc，添加以下内容 export GTK_IM_MODULExim export QT_IM_MODULExim export XMODIFIERSimfcitx source ~/.bashrc && code 重新加载环境变量后启动code，即可以正常使用搜狗拼音输入法了

阅读更多...

MongoDB - 查询操作符：比较查询、逻辑查询、元素查询、数组查询

MongoDB - 查询操作符：比较查询、逻辑查询、元素查询、数组查询

文章目录 1. 构造数据2. MongoDB 比较查询操作符1. $eq 等于1.1 等于指定值1.2 嵌入式文档中的字段等于某个值1.3 数组元素等于某个值1.4 数组元素等于数组值 2. $ne 不等于3. $gt 大于3.1 匹配文档字段3.2 根据嵌入式文档字段执行更新 4. $gte 大于等于5. $lt 小于6. $lte 小于…

阅读更多...

java内部类的本质

java内部类的本质

定义在类内部，可以实现对外部完全隐藏，可以有更好的封装性，代码实现上也往往更为简洁。内部类可以方便地访问外部类的私有变量，可以声明为private从而实现对外完全隐藏。在Java中，根据定义的位置和方式不同&#xf…

阅读更多...

什么是IOT 可编程控制系统

什么是IOT 可编程控制系统

IOT可编程控制系统GF-MAXCC是一种基于物联网（Internet of Things, IoT）技术的可编程中央控制主机。它集成了多种先进的技术和功能，能够在物联网系统中发挥关键作用，实现对多种设备的集中管理和控制。一、定义与概述定义&#x…

阅读更多...

虚幻引擎ue5如何调节物体锚点

虚幻引擎ue5如何调节物体锚点

当发现锚点不在物体上时，如何调节瞄点在物体上。步骤1：按住鼠标中键拖动锚点，在透视图中多次调节锚点位置。步骤2:在物体上点击鼠标右键点击-》锚定--》“设置为枢轴偏移”即可。

阅读更多...

vue3的服务端渲染实战项目（1）共12节

vue3的服务端渲染实战项目（1）共12节

一直在研究🧐Vue3的改变和提升，没有使用SSR怎么说是完全理解呢，接下来全套章节就带你一步一步了解服务端渲染的知识，后续对官网和项目的页面性能的考虑也会多一些思路。首先，老套路😄三连问：什么…

阅读更多...

昇思25天学习打卡营第二十四天｜基于MindSpore通过GPT实现情感分类

昇思25天学习打卡营第二十四天｜基于MindSpore通过GPT实现情感分类

基于MindSpore通过GPT实现情感分类导入数据集 import osimport mindspore from mindnlp._legacy.engine import Evaluator, Trainer from mindnlp._legacy.engine.callbacks import BestModelCallback, CheckpointCallback from mindnlp._legacy.metrics import Accuracy fr…

阅读更多...

219.贪心算法：柠檬水找零（力扣）

219.贪心算法：柠檬水找零（力扣）

代码解决 class Solution { public:bool lemonadeChange(vector<int>& bills) {int num50, num100; // 初始化5美元和10美元的计数器for(int i0; i < bills.size(); i) // 遍历所有账单{if(bills[i]5) // 如果账单是5美元{num5; // 增加5美元的计数continue; // …

阅读更多...

数据链路层协议 ------------- 以太网协议

数据链路层协议 ------------- 以太网协议

链路层解决的问题 IP拥有将数据跨网络从一台主机送到另一台主机的能力，但IP并不能保证每次都能够将数据可靠的送到对端主机，因此IP需要上层TCP为其提供可靠性保证，比如数据丢包后TCP可以让IP重新发送数据，最终在TCP提供的可靠性机…

阅读更多...

最新文章