文章目录
- 角点(关键点)的特点
- 图像分类的流程
- 梯度方向直方图(HOG)流程
- 平移、旋转和尺度特征(SIFT)流程
- 常用的图像生成模型
- GAN的原理
- Diffusion Model的原理
- mAP计算方法
角点(关键点)的特点
- 紧致&高效:关键点数目比像素少很多
- 显著性:关键点是独特的、有特色的
- 局部特性:关键点占据图像的相对较小区域;对杂波和遮挡具有鲁棒性
- 重复性/再现性:无论几何或光学变换,同一关键点都能被检测到
图像分类的流程
梯度方向直方图(HOG)流程
平移、旋转和尺度特征(SIFT)流程
核心步骤:将一幅图像映射(变换)为一个局部特征向量集;特征向量具有平移、缩放、旋转不变性,同时对光照变化、仿射及投影变换也有一定不变性。
关键点定义:在不同尺度空间的图像下,检测出的具有方向信息的局部极值点。根据归纳我们可以看出特征点具有三个特征:尺度、方向、大小
关键点检测:
- 尺度空间极值检测
- 关键点定位
- 确定关键点方向
关键点描述:
- 确定计算描述子所需的图像区域
- 将坐标移至关键点主方向,进行坐标旋转,以实现旋转不变性
- 在图像半径区域内,对每个像素点求其梯度幅值和方向,梯度幅值乘以高斯权重参数,生成方向直方图。
- 在窗口宽度为 2 × 2 2 \times 2 2×2的区域内计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点
- 描述子向量元素门限及门限化后的描述子向量规范化。
关键点匹配:
可以采用穷举法完成。一般都采用一种kd树的数据结构来完成搜索。
常用的图像生成模型
- 变分自编码器(VAE)
- 扩散模型(Diffusion Model)
- 生成对抗网络(Generative Adversarial Network, GAN)
GAN的原理
GAN的训练过程如下:
- 训练鉴别器
- 从训练集中随机抽取真实样本x
- 获取一个新的随机噪声向量,并使用生成器生成一个伪造实例 x f x_f xf
- 使用鉴别器x和 x f x_f xf进行分类
- 计算分类误差并方向传播总误差,以更新鉴别器的可训练参数,将分类误差降至最低
- 训练生成器
- 获得一个新的随机噪声向量z,并使用生成器生成一个伪造示例 x f x_f xf
- 使用鉴别器对 x f x_f xf进行分类
- 计算分类误差并反向传播该误差,以更新生成器的可训练参数,使鉴别器误差最大化
- 结束
平衡状态:- 生成器生成的伪造示例与训练数据集中的真实示例没有区别
- 鉴别器只能依靠随机猜测来确定一个特定示例是真实还是伪造的(以1:1的比例猜测一个示例是真实的)
Diffusion Model的原理
扩散模型受扩散原理的启发,扩散模型的工作原理是通过添加高斯噪声(这个步骤是Forward diffusion process)来破坏训练数据,然后学习如何通过逐步反转该添加噪声的过程(这个步骤是reverse process)来恢复原始信息。经过训练,这些模型可以通过充满噪声的图片预测noise、减去 noise然后生成新图片。模型通过最大似然化估计进行训练,目标是学习如何从任意噪声水平的数据恢复到真实数据,在训练完成后,数据生成从标准高斯噪声开始,逐步应用学到的逆变换,通过去噪声步骤逐步生成最终的数据样本。
mAP计算方法
重新定义 T P , F P , T N , F N TP, FP, TN, FN TP,FP,TN,FN
- T P TP TP: 有预测的边界框与给定类的目标边界框的 I O U > 0.5 IOU > 0.5 IOU>0.5
- F P FP FP: 有预测的边界框与给定的目标边界框的 I O U < 0.5 IOU < 0.5 IOU<0.5
- F N FN FN: 对于目标边界框没有预测的边界框
-
准确率:衡量的是预测为正的结果中,实际正确的比例
P r e c i s i o n = T P T P + F P Precision = \dfrac{TP}{TP + FP} Precision=TP+FPTP -
召回率:测量正确预测的实际正例的比例
R e c a l l = T P T P + F N Recall = \dfrac{TP}{TP + FN} Recall=TP+FNTP -
平均精度(Average Precision, AP)衡量了模型对正样本的预测准确性,通过不同的召回率下计算并平均精确率来得到,(绘制PR图,下面的面积)形成一个曲线下的面积,较高AP值意味着模型具有更好的检测性能,而AP = 1表示模型的检测是完美的