【AI基础】数据获取与整理、打标、增强方法、增强库imgaug

文章目录

  • 常见的数据集网站
  • 爬虫工具使用
    • 搜索引起图片爬虫
    • 视频网站爬虫
  • 数据整理
    • 数据检查和清洗
    • 数据去重
    • 数据集划分
  • 数据标注
    • 数据标注工具 label studio
  • 数据增强
    • 什么是数据增强
    • 单样本数据增强
    • 多样本数据增强
    • 样本生成方法
    • 数据增强imgaug
      • imgaug 操作
      • imgaug 使用

常见的数据集网站

*imagenet

  • hugging face

  • 自己采集与标注

  • 网络爬虫

爬虫工具使用

搜索引起图片爬虫

image-downloader
安装,然后根据关键词检索
在这里插入图片描述
在这里插入图片描述

视频网站爬虫

工具: iawia lux
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据整理

数据检查和清洗

  • 去除不好的损坏的图片: 损坏图片/ 动图/异常尺寸图片

  • 去除停用词和特殊符号
    在这里插入图片描述

  • 归一化

  • 内容纠错
    在这里插入图片描述

数据去重

重复数据
相似数据

数据集划分

训练集

  • 数据集难度划分

在这里插入图片描述
在这里插入图片描述

数据标注

数据标注工具 label studio

语音、文本、图片、视频等都可以进行标注
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 导出时会让选择是什么类别的 coco / yolo /…

数据增强

什么是数据增强

数据增广或者数据增扩
作用: 降低数据采集成本 降低过拟合风险降低
方法: 单样本、多样本、样本生成
在这里插入图片描述

单样本数据增强

几何变换: 翻转 、裁剪与缩放、仿射与透射变换
添加噪声 : 随机噪声、 coaesrDropout 、频域噪声
添加模糊、平滑
颜色扰动,改变颜色、亮度、对比度等
锐化 颜色反转
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

多样本数据增强

在这里插入图片描述

  • mixup :对图像和标签都进行线性插值

在这里插入图片描述

  • cutmix
    直接复制粘贴,作用: 增强样本的数量缓解类别不平衡
    在这里插入图片描述
  • mosiac : 多个样本拼接
    在这里插入图片描述

样本生成方法

当下两大主流生成模型:

  • 生成对抗网络
  • 扩散模型
    在这里插入图片描述

数据增强imgaug

ii

imgaug 操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(添加噪声、压缩)
在这里插入图片描述
(删除像素点 删除通道)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

imgaug 使用

在这里插入图片描述
在这里插入图片描述

#coding:utf8
import numpy as np
import imgaug as ia
import imgaug.augmenters as iaaia.seed(1)## 创建矩阵(16, 64, 64, 3).
images = np.array([ia.quokka(size=(64, 64)) for _ in range(16)],  # quokka :小老鼠dtype=np.uint8
)seq = iaa.Sequential([iaa.Fliplr(0.5), ## 以0.5的概率进行水平翻转horizontal flipsiaa.Crop(percent=(0, 0.1)), ## 随机裁剪random crops## 对50%的图片进行高斯模糊,标准差参数取值0~0.5.iaa.Sometimes(0.5,iaa.GaussianBlur(sigma=(0, 0.5))),## 对50%的通道添加高斯噪声iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5),
], random_order=True) ## 以上所有操作,使用随机顺序images_aug = seq(images=images) ## 应用操作增强
grid_image = ia.draw_grid(images_aug,4)import imageio
imageio.imwrite("example.jpg", grid_image)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/18816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这款AI绘画软件,带你快速生成高质量产品效果图!

前言 随着人工智能技术的飞速发展,AI在设计领域的应用越来越广泛,。今天,介绍的一款能够自动生成高质量产品效果图的AI绘画软件——STARTAI。这款软件以其强大的功能和便捷的操作,正在重新定义电商产品效果图的制作流程。 AI局部…

RocketMQ .NET

RocketMQ 是一款由阿里巴巴集团开发并开源给Apache软件基金会的分布式消息及流处理平台。以其高吞吐量、低延迟、高可用性等特点而广受欢迎。支持Java,C, Python, Go, .NET等。 异步解耦:可以实现上游和下游业务系统的松耦合设计,使得服务部…

小红书图文笔记怎么做?纯干货!

小红书图文笔记的制作是一门艺术,它需要结合精美的图片和有价值的内容,以吸引和留住用户的注意力。伯乐网络传媒给大家分享制作小红书图文笔记的干货指南,包括准备、制作、发布和优化的各个环节。 一、准备阶段 确定目标受众:找到…

【NumPy】权威指南:使用NumPy的percentile函数进行百分位数计算

🧑 博主简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

研学活动报名二维码怎么制作?

在组织研学活动时,老师们经常面临报名流程繁琐、信息收集不全面、统计工作耗时等问题?如何高效地管理学生的报名信息,确保活动顺利进行呢? 现在我们有了更多的选择。老师们可以快速制作出研学活动的研学活动报名二维码怎么制作&am…

DETR整体模型结构解析

DETR流程 Backbone用卷积神经网络抽特征。最后通过一层1*1卷积转化到d_model维度fm(B,d_model,HW)。 position embedding建立跟fm维度相同的位置编码(B,d_model,HW)。 Transformer Encoder,V为fm,K,Q为fm…

非量表题如何进行信效度分析

效度是指设计的题确实在测量某个东西,一般问卷中使用到。如果是量表类的数据,其一般是用因子分析这种方法去验证效度水平,其可通过因子分析探究各测量量表的内部结构情况,分析因子分析得到的内部结构与自己预期的内部结构进行对比…

大模型预训练结果到底是什么?

近日参加一个线下 AI 交流会议,会上有个非本行业的老师提问:“大家说的训练好的大模型到底是什么?是像 Word 软件一样可以直接使用的程序吗?” 这个问题看似简单,却一下把我问住了。的确,我们这些身处 AI 领…

Kafka原生API使用Java代码-生产者-发送消息

文章目录 1、生产者发送消息1.1、使用EFAK创建主题my_topic31.2、根据kafka官网文档写代码1.3、pom.xml1.4、KafkaProducer1.java1.5、使用EFAK查看主题1.6、再次运行KafkaProducer1.java1.7、再次使用EFAK查看主题 1、生产者发送消息 1.1、使用EFAK创建主题my_topic3 1.2、根…

STM32 OTA需要注意问题

一、OTA设计思路(问题) 1、根据stm32f405 flash分布,最初将flash划分为四个区域,分别是Bootloader、APP1、APP2、参数区,设备上电后,进入Bootloader程序,判断OTA参数,根据参数来确定…

APP逆向之调试的开启

很基础的一个功能设置,大佬轻喷。 背景 在开始进行对APP逆向分析的时候,需要对APP打开调试模式。 打开调试的模式有多种方式可以通过直接改包方式也可以通过借助第三方工具进行打开调试模式。 下面就整理下这个打开调试模式的一些方式。 改包修改模…

Java面试题分享-敏感词替换 java 版本

入职啦最近更新了一些后端笔试、面试题目,大家看看能快速实现吗? 关注 入职啦 微信公众号,每日更新有用的知识,Python,Java,Golang,Rust,javascript 等语言都有 不要再用replaceAll做…

DNF手游攻略:开荒必备攻略!

DNF手游马上就要开服了,今天给大家带来最完整的DNF手游入门教程。这篇攻略主要讲述了 DNF手游开服第一天要注意的事项,这是一个新手必备的技能书,可以让你在开服的时候,少走一些弯路,让你更快完成任务!废话…

蓝牙Mesh模块多跳大数据量高带宽传输数据方法

随着物联网技术的飞速发展,越来越多的设备需要实现互联互通。蓝牙Mesh网络作为一种低功耗、高覆盖、易于部署的无线通信技术,已经成为物联网领域中的关键技术之一。在蓝牙Mesh网络中,节点之间可以通过多个跳数进行通信,从而实现大…

【OrangePi AIpro】香橙派 AIpro 为AI而生

产品简介 OrangePi AIpro(8T):定义边缘智能新纪元的全能开发板 在当今人工智能与物联网技术融合发展的浪潮中,OrangePi AIpro(8T)凭借其强大的硬件配置与全面的接口设计,正逐步成为开发者手中的创新利器。这款开发板不仅代表了香橙派与华为…

最新淘宝死店全自动采集私信筛选脚本,号称日赚500+【采集软件+使用教程】

原理: 利用脚本自动采集长时间未登录店铺,然后脚本自动私信对应的店铺,看看商家是不是不回消息来判断是否是死店,再下单购买死店的产品,超过48小时不发货就可以联系客服获得赔付,一单利润百分之5%-30%&…

配置阿里yum源

配置阿里yum源(这个很重要):https://developer.aliyun.com/article/1480470 1.备份系统自带yum源配置文件 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2.下载ailiyun的yum源配置文件 2.1 CentOS7 wge…

Ansible03-Ansible Playbook剧本详解

目录 写在前面5. Ansible Playbook 剧本5.1 YAML语法5.1.1 语法规定5.1.2 示例5.1.3 YAML数据类型 5.2 Playbook组件5.3 Playbook 案例5.3.1 Playbook语句5.3.2 Playbook1 分发hosts文件5.3.3 Playbook2 分发软件包,安装软件包,启动服务5.3.3.1 任务拆解…

5.28.1 使用卷积神经网络检测乳腺癌

深度学习技术正在彻底改变医学图像分析领域,因此在本研究中,我们提出了卷积神经网络 (CNN) 用于乳腺肿块检测,以最大限度地减少手动分析的开销。CNN 架构专为特征提取阶段而设计,并采用了更快的 R-CNN 的区域提议网络 (RPN) 和感兴…

py黑帽子学习笔记_scapy

简介 代码简洁:相比于前两个博客总结,很多socket操作,如果使用scapy仅需几行代码即可实现 获取邮箱身份凭证 编写基础嗅探器,脚本可显示任何收到的一个包的详细情况 直接运行 尝试监听邮件收发,监听指定端口&#x…