【目标分类图像增强方法】

图像增强方法及其原理

目标分类图像增强是一种用于提高深度学习模型泛化能力的技术,通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理:

  1. 几何变换

    • 旋转(Rotation) :以一定角度随机旋转图像,使模型能够识别目标在不同方向上的表现。
    • 翻转(Flip) :水平或垂直翻转图像,模拟镜像效果。
    • 缩放(Scaling) :改变图像大小,训练模型适应不同尺度的目标。
    • 裁剪与填充(Cropping and Padding) :随机裁剪图像的一部分并重新填充到原始尺寸,或在图像边缘添加填充以改变目标的位置。
  2. 颜色空间变换

    • 亮度调整(Brightness Adjustment) :通过改变图像的整体亮度来模拟光照变化。
    • 对比度调整(Contrast Adjustment) :改变图像中像素之间的灰度差异,增强或减弱细节。
    • 饱和度调整(Saturation Adjustment) :改变色彩饱和度,影响图像色彩的鲜艳程度。
    • 色调/色相调整(Hue Adjustment) :改变图像的整体色彩倾向。
  3. 噪声注入

    • 高斯噪声(Gaussian Noise) :在图像上添加符合高斯分布的随机噪声,模拟传感器噪声或信道干扰。
    • 椒盐噪声(Salt and Pepper Noise) :随机将部分像素点置为白色或黑色,模拟图像中的坏点和缺失像素。
  4. 混合模式

    • 图像混合(Blending) :将两张图片按照一定的透明度混合在一起,模拟遮挡或多目标场景。
  5. 仿射变换(Affine Transformation) :包括平移、旋转、缩放以及剪切等综合变换,保证变换后图像的局部形状不变。

  6. 随机擦除(Random Erasing) :随机选择图像区域并用均值或者随机像素填充,以此来模拟目标部分遮挡的情况。

  7. Cutout 或 CutMix

    • Cutout:随机删除图像的矩形区域,迫使模型关注其它未被遮盖的部分。
    • CutMix:将一张图像的一部分替换为另一张图像的相应部分,并更新标签以反映这种混合,这样既增强又增加了类别间的交互。
  8. MixUp:线性插值两张图像和它们的标签,生成新的训练样本,旨在创建两个类别间的中间过渡样本。

以上这些增强技术通常在深度学习框架如TensorFlow、PyTorch中通过相应的库实现,例如tf.imagetorchvision.transforms等,可以在训练前实时应用于每一批次的训练数据,无需预先处理整个数据集。

代码示例

1. 几何变换

  • 旋转(Rotation)

    • 原理:随机旋转图像,增加模型对目标物体不同角度的识别能力。

    • 示例(使用albumentations):

      import albumentations as A
      transform = A.Compose([A.Rotate(limit=30, p=0.5)  # 随机旋转0到30度
      ])
      
  • 翻转(Flip)

    • 原理:水平或垂直翻转图像,模拟镜像效果,提高模型对左右对称性的识别能力。

    • 示例(使用torchvision.transforms):

      from torchvision.transforms import RandomHorizontalFlip, RandomVerticalFlip
      transforms = Compose([RandomHorizontalFlip(p=0.5),  # 水平翻转概率为0.5RandomVerticalFlip(p=0.5)    # 垂直翻转概率为0.5
      ])# 或者使用单一的RandomFlip
      from torchvision.transforms import RandomFlip
      transforms = Compose([RandomFlip(  # 可以指定方向,不指定则默认考虑水平和垂直horizontal=True,vertical=True,p=0.5,)
      ])
      

2. 颜色空间变换

  • 亮度调整(Brightness Adjustment)

    • 原理:通过改变像素的亮度值来模拟光照变化。

    • 示例(使用albumentations):

      import albumentations as A
      transform = A.Compose([A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5)
      ])# 或者使用torchvision.transforms.ColorJitter单独调整亮度
      from torchvision.transforms import ColorJitter
      transforms = Compose([ColorJitter(brightness=0.2)
      ])
      
  • 对比度调整(Contrast Adjustment)

    • 原理:调整图像整体或局部区域的对比度,增强或减弱细节表现。
    • 示例(继续使用albumentations中的RandomBrightnessContrast):

3. 裁剪与填充(Cropping and Padding)

  • RandomResizedCrop

    • 原理:随机裁剪并缩放图像的一部分。

    • 示例(使用torchvision.transforms):

      from torchvision.transforms import RandomResizedCrop
      transforms = Compose([RandomResizedCrop(size=(224, 224), scale=(0.08, 1.0))
      ])
      

4. 其他增强

  • 随机擦除(RandomErasing)

    • 原理:随机擦除图像的部分区域,训练模型关注缺失信息时也能正确分类。

    • 示例(使用albumentations):

      import albumentations as A
      transform = A.Compose([A.RandomErasing(p=0.5)
      ])
      

5. 混合模式(CutMix, MixUp)

  • CutMix

    • 原理:将一张图像的一部分替换为另一张图像的相应部分,并更新标签,促进类别间的边界学习。

    • 示例(使用albumentations的CutMix类):

      from albumentations.augmentations.mixup import CutMix
      transform = A.Compose([CutMix(num_classes=num_classes, alpha=1.0)
      ])
      
  • MixUp

    • 原理:线性插值两张图像和它们的标签,创建数据集之间的过渡样本。
    • torchvision自身没有直接提供MixUp实现,但可以自定义一个。

目标分类图像增强应用

  1. 翻转(Flip):将图像在水平或垂直方向上进行翻转,可以增加数据集的多样性。原理是通过改变图像的坐标系来实现。
  2. 缩放(Scale):对图像进行放大或缩小,可以增加数据集的多样性。原理是通过改变图像的尺寸来实现。
  3. 旋转(Rotate):将图像绕中心点旋转一定角度,可以增加数据集的多样性。原理是通过改变图像的角度来实现。
  4. 平移(Shift):将图像在水平和垂直方向上进行平移,可以增加数据集的多样性。原理是通过改变图像的位置来实现。
  5. 裁剪(Crop):从图像中截取一部分区域,可以增加数据集的多样性。原理是通过改变图像的区域来实现。
  6. 颜色变换(Color Jitter):对图像的颜色进行变换,如亮度、对比度、饱和度等,可以增加数据集的多样性。原理是通过改变图像的颜色属性来实现。
  7. 噪声注入(Noise Injection):向图像中添加噪声,可以提高模型的鲁棒性。原理是通过向图像中添加随机噪声来实现。

下面是一个使用Python和OpenCV实现图像增强的代码示例:

import cv2
import numpy as npdef random_flip(image, prob=0.5):if np.random.rand() < prob:image = cv2.flip(image, 1)return imagedef random_scale(image, scale_range=(0.8, 1.2), prob=0.5):if np.random.rand() < prob:scale = np.random.uniform(scale_range[0], scale_range[1])h, w = image.shape[:2]new_h, new_w = int(h * scale), int(w * scale)image = cv2.resize(image, (new_w, new_h))return imagedef random_rotate(image, angle_range=(-30, 30), prob=0.5):if np.random.rand() < prob:angle = np.random.uniform(angle_range[0], angle_range[1])h, w = image.shape[:2]M = cv2.getRotationMatrix2D((w / 2, h / 2), angle, 1)image = cv2.warpAffine(image, M, (w, h))return imagedef random_shift(image, shift_range=(-10, 10), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]dx = np.random.randint(shift_range[0], shift_range[1])dy = np.random.randint(shift_range[0], shift_range[1])M = np.float32([[1, 0, dx], [0, 1, dy]])image = cv2.warpAffine(image, M, (w, h))return imagedef random_crop(image, crop_size=(224, 224), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]new_h, new_w = crop_sizestart_x = np.random.randint(0, w - new_w)start_y = np.random.randint(0, h - new_h)image = image[start_y:start_y + new_h, start_x:start_x + new_w]return imagedef random_color_jitter(image, brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1, prob=0.5):if np.random.rand() < prob:alpha = 1 + np.random.uniform(-brightness, brightness)beta = np.random.uniform(-contrast, contrast)gamma = np.random.uniform(-saturation, saturation)hue_delta = np.random.uniform(-hue, hue)image = cv2.addWeighted(image, alpha, image, 0, beta)image = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)image[:, :, 1] = image[:, :, 1] * (1 + gamma)image[:, :, 0] = (image[:, :, 0] + hue_delta) % 180image = cv2.cvtColor(image, cv2.COLOR_HSV2BGR)return imagedef random_noise_injection(image, noise_level=0.05, prob=0.5):if np.random.rand() < prob:noise = np.random.randn(*image.shape) * noise_levelimage = image + noiseimage = np.clip(image, 0, 255).astype(np.uint8)return image

在训练过程中随机应用这些函数,以提高模型的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/727790.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【排序】435. 无重叠区间

435. 无重叠区间 方法概述 整体解决方案分为两个部分&#xff1a; eraseOverlapIntervals(int[][] intervals)&#xff1a;这是主要方法&#xff0c;用于计算并返回需要移除的区间数量。intervalSchedule(int[][] intvs)&#xff1a;这个辅助方法用于通过贪心算法计算出最大…

【SEO 初学者指南】搜索引擎的工作原理:抓取、索引、排名

了解搜索引擎的工作原理&#xff0c;从抓取和索引到排名和惩罚&#xff0c;以及优化和故障排除技巧。 搜索引擎是如何工作的&#xff1f; 搜索引擎通过抓取、索引和排名互联网内容来工作。首先&#xff0c;爬虫通过网络爬虫发现在线内容。然后&#xff0c;索引分析内容并将其…

Spring核心原理

目录 IOCxml配置创建对象xml配置注入属性自动装配引入外部属性文件注解创建对象注解注入属性 AOP方式一 : 通过JDK接口实现方式二 : 通过AspectJ实现AOP JdbcTemplateSpring事务管理整合Mybatis实现一实现二 WebFlux函数式编程 Spring是一个开放源代码的JavaEE设计层面框架&…

C++:拷贝构造函数

1.概念 在现实生活中&#xff0c;可能存在一个与你一样的自己&#xff0c;我们称之为双胞胎。那在创建对象的时候&#xff0c;可否创建一个与已存在对象一模一样的新对象呢&#xff1f;答案是可以的&#xff0c;这就要通过拷贝构造函数来实现了。 拷贝构造函数&#xff1a;只有…

微服务基础

目录 一、单体架构 二、分布式架构 三、微服务 四、微服务结构 五、SpringCloud 六、服务拆分 七、远程调用 一、单体架构 单体架构就是将业务的所有功能都集中在一个项目中进行开发&#xff0c;并打成一个包进行部署。 他的优点很明显&#xff0c;就是架构简单&#xff…

C++的类和对象(四):拷贝构造函数

目录 拷贝构造函数 特性 自定义类型的传值传参和传引用传参对比 赋值运算符重载 拷贝构造函数 基本概念&#xff1a;只有单个形参&#xff0c;该形参是对本类类型对象的引用&#xff08;一般常用const修饰&#xff09;&#xff0c;在创建一个已存在对象一模一样的新对象时…

MySQL运维实战之备份和恢复(8.4)xtrabackup恢复全量备份

作者&#xff1a;俊达 恢复全量备份大致可以分成以下几步&#xff1a;解压备份文件、prepare备份文件、将数据copy到目标实例相关目录、启动数据库实例。 解压文件 如果备份时使用了xbstream&#xff0c;需要先解压备份文件。 我们备份时使用了–streamxbstream和gzip压缩&am…

数据结构:AVL树

目录 1、AVL树的概念 2、二叉搜索树的功能与实现 1、AVL树节点定义 2、AVL树的插入 3、AVL树的旋转操作 1、左旋 2、右旋 3、左右旋 4、右左旋 3、AVL树完整代码实现 1、AVL树的概念 在前面的文章中&#xff0c;我们学过了二叉搜索树&#xff0c;二叉搜索树虽可以缩短查…

勾股定理的七种经典证明

据说勾股定理约有500种证明方法&#xff0c;下面介绍几种经典的证明方法。 一、切割重拼法。 顾名思义&#xff0c;就是将图形切割成其他形式的图形&#xff0c;然后通过拼图转换为另一种图形&#xff0c;这个过程中图形的面积是不变的。 “赵爽弦图”是这种方法的经典应用&…

MYSQL刷题2| 1112.每位学生的最高成绩、1398.购买了产品A和产品B缺没有购买产品C的顾客

1112.每位学生的最高成绩 题目链接&#xff1a;1112. 每位学生的最高成绩 - 力扣&#xff08;LeetCode&#xff09; # Write your MySQL query statement below select e.student_id, MIN(course_id) AS course_id, grade from enrollments e where (student_id,grade) in (s…

JimuReport 积木报表 v1.7.2 紧急发布,修复1.7.1严重Bug

1.7.2-beta 紧急版 2024-03-07 紧急版本&#xff0c;修复1.7.1版本的严重bug。 集成依赖 springboot2依赖 <dependency><groupId>org.jeecgframework.jimureport</groupId><artifactId>jimureport-spring-boot-starter</artifactId><versi…

Android视角看鸿蒙第三课(module.json中的各字段含义之nametype)

Android视角看鸿蒙第三课(module.json中的各字段含义) 前言 上篇文章我们试图找到鸿蒙app的程序入口&#xff0c;确定了在鸿蒙工程中,由AppScope下的app.json5负责应用程序的图标及名称,由entry->src->main-module.json5负责桌面图标及名称的展示。 AppScope下的app.js…

c++ vector赋值新技能、函数返回动态数组、 计算静动态数组的大小

一、vector赋值新技能 方法1&#xff1a;pushback vector<int> a; a.pushback(10); 方法2&#xff1a;直接赋值(很少用) vector<int> a {1,2 ,3,4,5}; 二、函数返回动态数组 void func(vector<int>src, double *dtemp) {for (int i 0; i < src.siz…

Java 反射机制 和 绑定属性资源文件

反射机制 1、反射机制有什么用&#xff1f; 通过 java 语言中的反射机制可以操作字节码文件。 有点类似于黑客。&#xff08;可以读和修改字节码文件。&#xff09; 通过反射机制可以操作代码片段。&#xff08;class文件。&#xff09; 2、反射机制的相关类在哪个包下&#xf…

使用Kali搭建钓鱼网站教程

一、前言 使用kali工具一分钟制作出和目标网站一模一样的钓鱼网站。目标用户使用钓鱼网站登录自己的账号&#xff0c;账号密码将被自动劫持。 二、钓鱼网站的制作过程 1.在虚拟机VMvare中登录kali linux 2.准备一个目标网址 3.在kail中搜索使用工具 4.在弹出的选项中选择第一…

用友 NC saveDoc.ajax 任意文件上传漏洞复现

0x01 产品简介 用友NC是一款企业级ERP软件。作为一种信息化管理工具,用友NC提供了一系列业务管理模块,包括财务会计、采购管理、销售管理、物料管理、生产计划和人力资源管理等,帮助企业实现数字化转型和高效管理。 0x02 漏洞概述 用友 NC saveDoc.ajax接口处存在任意文件…

【JavaEE初阶】 JVM简介

文章目录 &#x1f38d;前言&#x1f343;JVM发展史&#x1f6a9;Sun Classic VM&#x1f6a9;Exact VM&#x1f6a9;HotSpot VM&#x1f6a9;JRockit&#x1f6a9;J9 JVM&#x1f6a9;Taobao JVM&#xff08;国产研发&#xff09; &#x1f340;JVM 运行流程⭕总结 &#x1f3…

基于毕奥-萨伐尔定律的交流电机的4极旋转磁场matlab模拟与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于毕奥-萨伐尔定律的交流电机的4极旋转磁场&#xff0c;对比不同定子半径&#xff0c;对比2级旋转磁场。 2.系统仿真结果 3.核心程序与模型 版本&#xff1a;MATLAB2022a…

2024-3-7 python创建二维列表谨防连用两个*,列表的增量赋值(+=或*=)与元组的增量赋值的差异

#1、python创建二维列表谨防连用两个* 要创建1个二维的列表&#xff0c;不要连用两个*号&#xff0c;否则会出现改1个值&#xff0c;其他位置的值跟着变化的问题。 下面两种创建二维列表的方法&#xff0c;要用第一种&#xff0c;不要用第二种 >>> board1 [[_]*3 fo…

代码随想录算法训练营第五十三天 1143.最长公共子序列 、1035.不相交的线、53. 最大子序和

代码随想录算法训练营第五十三天 | 1143.最长公共子序列 、1035.不相交的线、53. 最大子序和 1143.最长公共子序列 题目链接&#xff1a;1143. 最长公共子序列 - 力扣&#xff08;LeetCode&#xff09; class Solution {public int longestCommonSubsequence(String text1, …