Transformer
- MHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;
- 时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。
卷积
CNN
- 卷积核权值共享,因此具有平移不变性,减少参数量
- 为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。
图卷积和边缘卷积
图卷积
- 图卷积是在论文《Semi-supervised Classification with Graph Convolutional Networks》中提出来的;
- 图卷积的核心是X_i+1 = A X_i W,其中A是邻接矩阵,W是线性层;
- 图卷积是对节点进行特征计算,然后更新节点信息。
边缘卷积
- 边缘卷积是在论文《DGCNN : Dynamic Graph CNN for Learning on Point Clouds》中提出来的;
- 边缘卷积的核心是 X_i+1 = ei1 ~ ei2 ~ … ~ ein,其中e表示边缘特征,是对边连接的点的特征进行非线性变化得到的; ~ 表示一种具有排列不变性的操作,如max, mean, sum等;
- 边缘卷积是对边进行特征计算,然后更新节点信息。
- 边缘卷积Edge Conv和动态图卷积DGCNN不是一个东西:论文之所以用了边缘卷积,并把自己的称为动态图卷积,是因为进行边缘卷积之后,点在高维空间中的位置发生了变化,那么由k近邻得到的邻居节点也和上一层的邻居节点不一样了,导致图的连接关系不一样,所以叫动态图。
激活函数
sigmoid
- 经常用于分类场景,作为概率输出
relu
- 经常作为隐藏层激活函数,缓解梯度消失
- 为什么不能完全解决梯度消失:小于0的部分没有梯度,传播受限;
损失函数
- 为什么会出现loss spike:loss spike是一种训练过程中loss突然猛烈增大的现象。可能原因是模型浅层参数和深层参数会形成依赖关系,但是一般浅层参数变化慢,深层参数变化快,当深层参数和浅层参数逐渐匹配后,loss逐渐减小;但是如果突然输入一个分布很不一样的训练数据,浅层参数有一定变化,导致下游数据分布变化较大,深层参数不匹配,导致模型突然出现较高loss。参考:https://blog.csdn.net/qq_27590277/article/details/135493299
需要能够
- 手写MHA