【AI基础】数据获取与整理、打标、增强方法、增强库imgaug

文章目录

  • 常见的数据集网站
  • 爬虫工具使用
    • 搜索引起图片爬虫
    • 视频网站爬虫
  • 数据整理
    • 数据检查和清洗
    • 数据去重
    • 数据集划分
  • 数据标注
    • 数据标注工具 label studio
  • 数据增强
    • 什么是数据增强
    • 单样本数据增强
    • 多样本数据增强
    • 样本生成方法
    • 数据增强imgaug
      • imgaug 操作
      • imgaug 使用

常见的数据集网站

*imagenet

  • hugging face

  • 自己采集与标注

  • 网络爬虫

爬虫工具使用

搜索引起图片爬虫

image-downloader
安装,然后根据关键词检索
在这里插入图片描述
在这里插入图片描述

视频网站爬虫

工具: iawia lux
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据整理

数据检查和清洗

  • 去除不好的损坏的图片: 损坏图片/ 动图/异常尺寸图片

  • 去除停用词和特殊符号
    在这里插入图片描述

  • 归一化

  • 内容纠错
    在这里插入图片描述

数据去重

重复数据
相似数据

数据集划分

训练集

  • 数据集难度划分

在这里插入图片描述
在这里插入图片描述

数据标注

数据标注工具 label studio

语音、文本、图片、视频等都可以进行标注
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 导出时会让选择是什么类别的 coco / yolo /…

数据增强

什么是数据增强

数据增广或者数据增扩
作用: 降低数据采集成本 降低过拟合风险降低
方法: 单样本、多样本、样本生成
在这里插入图片描述

单样本数据增强

几何变换: 翻转 、裁剪与缩放、仿射与透射变换
添加噪声 : 随机噪声、 coaesrDropout 、频域噪声
添加模糊、平滑
颜色扰动,改变颜色、亮度、对比度等
锐化 颜色反转
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

多样本数据增强

在这里插入图片描述

  • mixup :对图像和标签都进行线性插值

在这里插入图片描述

  • cutmix
    直接复制粘贴,作用: 增强样本的数量缓解类别不平衡
    在这里插入图片描述
  • mosiac : 多个样本拼接
    在这里插入图片描述

样本生成方法

当下两大主流生成模型:

  • 生成对抗网络
  • 扩散模型
    在这里插入图片描述

数据增强imgaug

ii

imgaug 操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(添加噪声、压缩)
在这里插入图片描述
(删除像素点 删除通道)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

imgaug 使用

在这里插入图片描述
在这里插入图片描述

#coding:utf8
import numpy as np
import imgaug as ia
import imgaug.augmenters as iaaia.seed(1)## 创建矩阵(16, 64, 64, 3).
images = np.array([ia.quokka(size=(64, 64)) for _ in range(16)],  # quokka :小老鼠dtype=np.uint8
)seq = iaa.Sequential([iaa.Fliplr(0.5), ## 以0.5的概率进行水平翻转horizontal flipsiaa.Crop(percent=(0, 0.1)), ## 随机裁剪random crops## 对50%的图片进行高斯模糊,标准差参数取值0~0.5.iaa.Sometimes(0.5,iaa.GaussianBlur(sigma=(0, 0.5))),## 对50%的通道添加高斯噪声iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5),
], random_order=True) ## 以上所有操作,使用随机顺序images_aug = seq(images=images) ## 应用操作增强
grid_image = ia.draw_grid(images_aug,4)import imageio
imageio.imwrite("example.jpg", grid_image)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/18816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这款AI绘画软件,带你快速生成高质量产品效果图!

前言 随着人工智能技术的飞速发展,AI在设计领域的应用越来越广泛,。今天,介绍的一款能够自动生成高质量产品效果图的AI绘画软件——STARTAI。这款软件以其强大的功能和便捷的操作,正在重新定义电商产品效果图的制作流程。 AI局部…

RocketMQ .NET

RocketMQ 是一款由阿里巴巴集团开发并开源给Apache软件基金会的分布式消息及流处理平台。以其高吞吐量、低延迟、高可用性等特点而广受欢迎。支持Java,C, Python, Go, .NET等。 异步解耦:可以实现上游和下游业务系统的松耦合设计,使得服务部…

小红书图文笔记怎么做?纯干货!

小红书图文笔记的制作是一门艺术,它需要结合精美的图片和有价值的内容,以吸引和留住用户的注意力。伯乐网络传媒给大家分享制作小红书图文笔记的干货指南,包括准备、制作、发布和优化的各个环节。 一、准备阶段 确定目标受众:找到…

说明 1px、1em、1rem、1vw、1vh 的区别

说明 1px、1em、1rem、1vw、1vh 的区别 单位(units)pxemremvwvh相对单位/绝对单位绝对相对相对相对相对含义像素相对于父元素字体大小(倍数)相对于根元素字体大小(倍数)相对于视口的宽度(百分之…

EM算法最通俗理解

期望最大化算法(EM)是机器学习领域非常重要的算法之一,但作为一个工科生,每次看其推导过程,总会怀疑自己的智商是不是不够用,为什么每一步推导都能看懂,但放到一起就崩了呢?可能还是…

【NumPy】权威指南:使用NumPy的percentile函数进行百分位数计算

🧑 博主简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

python爬虫之JS逆向——爬虫基础

目录 一、http协议 二、前端三剑客 1 HTML 标签 标签举例 2 CSS CSS的引入方式 选择器 属性操作 3 JS基础 JS的引入方式 JS的基本语法 变量赋值 数据类型 运算符 分支语句 循环语句 函数 JS的内置方法 字符串的内置方法 数组的内置方法 内置高阶方法 4 …

研学活动报名二维码怎么制作?

在组织研学活动时,老师们经常面临报名流程繁琐、信息收集不全面、统计工作耗时等问题?如何高效地管理学生的报名信息,确保活动顺利进行呢? 现在我们有了更多的选择。老师们可以快速制作出研学活动的研学活动报名二维码怎么制作&am…

【网络协议Http】Http中get,post,put,delete区别

Http协议 超文本传输协议(Hypertext Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。 【参考】 GET && POST 对比 关于tcp数据包:对于GET方式的请求,浏览器会把http hea…

Android 11 AudioPolicyService 启动流程

AudioPolicyService在init进程中启动,源码路径:frameworks/av/media/audioserver/audioserver.rc service audioserver /system/bin/audioserverclass coreuser audioserver# media gid needed for /dev/fm (radio) and for /data/misc/media (tee)grou…

DETR整体模型结构解析

DETR流程 Backbone用卷积神经网络抽特征。最后通过一层1*1卷积转化到d_model维度fm(B,d_model,HW)。 position embedding建立跟fm维度相同的位置编码(B,d_model,HW)。 Transformer Encoder,V为fm,K,Q为fm…

非量表题如何进行信效度分析

效度是指设计的题确实在测量某个东西,一般问卷中使用到。如果是量表类的数据,其一般是用因子分析这种方法去验证效度水平,其可通过因子分析探究各测量量表的内部结构情况,分析因子分析得到的内部结构与自己预期的内部结构进行对比…

自学之路Flutter使用Provider进行状态管理

使用前的准备 首先在pubspec.yaml中配置,然后pub get,等待安装完成 我们首先创建两个比较简单的控制器,测试页面跳转之间的数据传递。 import package:flutter/material.dart;void main() {runApp(const MyApp()); }class MyApp extends StatelessWid…

python接口自动化之会话保持

🍦 会话保持-token 有的网站登录需要token鉴权,是啥意思呢,现在有两个接口,一个接口是登录,一个接口是提交订单,那你怎么保证,提交登录这个用户是登录状态呢。登录成功的接接口会在response里面…

大模型预训练结果到底是什么?

近日参加一个线下 AI 交流会议,会上有个非本行业的老师提问:“大家说的训练好的大模型到底是什么?是像 Word 软件一样可以直接使用的程序吗?” 这个问题看似简单,却一下把我问住了。的确,我们这些身处 AI 领…

Kafka原生API使用Java代码-生产者-发送消息

文章目录 1、生产者发送消息1.1、使用EFAK创建主题my_topic31.2、根据kafka官网文档写代码1.3、pom.xml1.4、KafkaProducer1.java1.5、使用EFAK查看主题1.6、再次运行KafkaProducer1.java1.7、再次使用EFAK查看主题 1、生产者发送消息 1.1、使用EFAK创建主题my_topic3 1.2、根…

STM32 OTA需要注意问题

一、OTA设计思路(问题) 1、根据stm32f405 flash分布,最初将flash划分为四个区域,分别是Bootloader、APP1、APP2、参数区,设备上电后,进入Bootloader程序,判断OTA参数,根据参数来确定…

APP逆向之调试的开启

很基础的一个功能设置,大佬轻喷。 背景 在开始进行对APP逆向分析的时候,需要对APP打开调试模式。 打开调试的模式有多种方式可以通过直接改包方式也可以通过借助第三方工具进行打开调试模式。 下面就整理下这个打开调试模式的一些方式。 改包修改模…

Java面试题分享-敏感词替换 java 版本

入职啦最近更新了一些后端笔试、面试题目,大家看看能快速实现吗? 关注 入职啦 微信公众号,每日更新有用的知识,Python,Java,Golang,Rust,javascript 等语言都有 不要再用replaceAll做…

npm获取yarn在安装依赖时 git://github.com/user/xx.git 无法访问解决方法 -- 使用 insteadOf设置git命令别名

今天在使用一个node项目时突然遇到 一个github的拉取异常&#xff0c;一看协议居然是git://xxx 貌似github早就不用这种格式了&#xff0c; 而是使用的gitgithub.com:xxx 这种或者https协议&#xff0c;解决方法&#xff1a; 使用insteadof设置git别名 url.<base>.inste…