【机器学习300问】29、训练数据少该怎么办?数据增强

一、什么时候会遇到训练数据少的情况?

        在机器学习和深度学习中,遇到训练样本不足的情况通常发生在出现了新的任务、高昂的采集数据成本,稀有事件或小众领域等。接下来我展开说三种情形并分别举个例子。

(1)出现新的任务

        当面临全新的研究方向和技术挑战时,比如早期的人脸识别、自动驾驶技术的研发阶段,初期可用的训练样本数量较少。

        例如:在自动驾驶领域中,随着L4、L5级别全自动驾驶技术的发展,需要对复杂城市道路环境中的各种交通参与者行为、天气变化、施工路段等进行实时准确的识别与决策。这是一个相对较新的任务,收集这些极端情况下的驾驶数据就需要全新的数据采集方案,包括在不同地点部署大量传感器和摄像头设备,以及组织专门车队进行实际路测。

(2)高昂的数据采集成本

        在医疗、金融等领域,高质量标注的数据往往需要专业知识和人力投入进行标记,这会导致高成本和低效率,从而限制了训练集的大小。

        例如:在遥感卫星应用中,高分辨率地球观测数据对于环境监测、资源管理等方面至关重要,但发射和运营卫星的成本巨大,同时每张高清卫星图片的获取也需要投入相当高的资金,这就构成了高昂的数据采集成本。

(3)小众领域或稀有事件

        对于某些罕见的事件、疾病诊断、特殊领域的图像识别等任务,由于实际发生频率低或者获取数据难度大,可能收集到的数据量非常有限。

        例如:在天文物理学中,探测到黑洞合并这样的稀有事件对数据的需求极为特殊。这种事件的发生极其罕见,观测数据需要通过分布在世界各地的精密射电望远镜组成的阵列长时间监测才能捕捉到。由于事件本身很少见和数据获取设备要求高,此类研究面临着极端的小样本问题。即使捕捉到了信号,分析和理解这些数据也需要高度定制化的技术和模型。

二、训练数据少该怎么训练模型呢?

        任何数据稀缺且无法轻易增加数据来源的情况下,都可能出现训练样本不足的问题。在这种情况下,研究者和工程师会运用各种技术手段来缓解这一问题。我认为可以从两个方面入手:

  1. 在数据上下功夫
  2. 在模型上下功夫

这篇文章我主要介绍第一个方面,后续我会出新的文章来对第二种手段进行讲解。

(1)数据增强

图像数据增强

        图像数据增强是通过随机改变训练集中的图像特征来生成新的样本,而不改变其基本类别标签。以下是常用的图像数据增强方法:

1、几何变换

  • 旋转(Rotation):以一定角度随机旋转图像。
  • 翻转(Flip):水平或垂直翻转图像。
  • 缩放(Zoom):按比例放大或缩小图像。
  • 平移(Translation):在图像平面上随机移动图像内容。
  • 裁剪(Crop):从原始图像中随机裁剪出子区域作为新样本。

2、颜色空间调整

  • 亮度/对比度调整:随机调整图像的亮度和对比度。
  • 饱和度变化:在HSV颜色空间内修改饱和度分量S。
  • 色相调整:保持饱和度和明度不变,仅调整色调H。
  • 噪声注入:添加椒盐噪声、高斯噪声等模拟真实世界相机捕获过程中的噪声。

3、其他操作

  • 镜像变换(Reflection):沿特定轴线对图像进行镜面反射。
  • 剪裁或局部高斯噪声:在图像上随机遮挡或添加局部高斯噪声。
  • 强化学习式的图像生成:如使用CycleGAN生成风格转换后的图像,扩展数据多样性。

文本数据增强

        文本数据增强旨在增加模型对于相同语义的不同表达形式的理解能力。常用的方法包括:

  • 同义词替换:用同义词库替换原文本中的单词,保持句子原意但增加了词汇多样性。
  • 句法结构调整:通过插入、删除或重组文本中的词语或短语,改变句子结构但不改变基本含义。
  • 拼写错误引入:模拟用户输入时可能出现的拼写错误,提高模型对拼写错误的容忍度。
  • 语言模型生成:利用预训练的语言模型,如GPT-3,根据已有文本生成类似的新文本。

语言数据增强

        语音数据增强主要关注于音频信号处理领域,目的是让模型能更好地适应各种环境下的声音变化:

  • 回声模拟:为原始音频添加回声效果,模拟不同物理空间的声音传播。
  • 速度变换:调整语音的速度,快放或慢放,模拟说话者不同的语速。
  • 噪声注入:向干净的语音信号中添加背景噪声,例如白噪声、交通噪声、餐厅噪音等,提高模型在复杂环境下的识别性能。
  • 混响处理:模仿不同房间大小和材质所造成的混响效果。
  • 音调调整:改变语音的基频,模拟不同人的音色和情感状态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

392.判断子序列(Java)

目录 题目描述:输入:输出:代码实现: 题目描述: 给定字符串 s 和 t ,判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位…

Filter过滤器+JWT令牌实现登陆验证

一、背景 我们需要在客户端访问服务器的时候给定用户一定的操作权限,比如没有登陆时就不能进行其他操作。如果他需要进行其他操作,而在这之前他没有登陆过,服务端则需要将该请求拦截下来,这就需要用到过滤器,过滤器可以…

原创+顶级SCI优化!23年新算法PSA优化CNN-LSTM-Attention一键实现多变量回归预测!

声明:文章是从本人公众号中复制而来,因此,想最新最快了解各类智能优化算法及其改进的朋友,可关注我的公众号:强盛机器学习,不定期会有很多免费代码分享~ 目录 效果展示 数据介绍 创新点 模型流程 部…

【 React 】对React中类组件和函数组件的理解?有什么区别?

相关文章: 1 React 中的类组件 2 React中的函数组件 1. 类组件 类组件,也就是通过使用ES6类的编写形式去编写组件,该类必须继承React.Component 如果想要访问父组件传递过来的参数,可以通过this.props方式去访问 在组件中必须实现…

RabbitMQ的web控制端介绍

2.1 web管理界面介绍 connections:无论生产者还是消费者,都需要与RabbitMQ建立连接后才可以完成消息的生产和消费,在这里可以查看连接情况channels:通道,建立连接后,会形成通道,消息的投递、获取…

Vue-Router使用

1.安装 npm install vue-router4 2. 添加路由 新建router文件夹,新建文件 index.ts import { createRouter, createWebHashHistory,createWebHistory} from "vue-router";const routes [{path: /login,component: () > import("../views/Logi…

[leetcode 169][多数元素]

[leetcode 169][多数元素] 给定一个大小为 n 的数组 nums ,返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在多数元素。 示例 1: 输入:nums [3,2,3] …

[XS2123] 集成功率 MOSFET V1.0, IEEE 802.3af 兼容的 PD 和 DC/DC 控制器

[XS2123] 集成功率 MOSFET V1.0, IEEE 802.3af 兼容的 PD 和 DC/DC 控制器 概述 XS2123 是一款基于 IEEE 802.3af 标准 PD 和DC/DC 集成的控制器。 该芯片的 PD 控制器部分为用电设备(PD)提供符合以太网供电(PoE&a…

牛客网——美团2024届秋招笔试第三场编程真题

牛客网——美团2024届秋招笔试第三场编程真题 😍😍😍 相知🙌🙌🙌 相识😢😢😢 开始刷题1. 平均数为k的最长连续子数组2. 小球投盒3. 小红结账4. 小美的游戏5. 小美种果树6…

小米汽车上市进入倒计时,已开启内部试驾

在十四届全国人大二次会议上,全国人大代表、小米集团创始人、董事长CEO雷军回应了小米汽车的最新消息,小米汽车预计很快就要正式上市。 小米汽车推出了两款车型:SU7和SU7 Max。这两款车型均为纯电轿车,带来了不同的配置和性能特点…

python自学6

第一节第十章 开发图表 第一个可视化图表,折线图的开发 json数据格式 pyecharts模块 图标源码网站 Document gallery.pyecharts.org pyecharts模块的快速入门 pyecharts配置有两个选项 全局配置是对整个可视化界面进行配置,比如名字,工具…

代码复现错误

1. 问题: torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 64.00 MiB (GPU 0; 39.59 GiB total capacity; 37.72 GiB already allocated; 38.19 MiB free; 37.83 GiB reserved in total by PyTorch) If reserved memory is >> allocat…

防御保护 IPSEC VPPN实验

实验背景:FW1和FW2是双机热备 主备备份模式。 实验要求:在FW5和FW3之间建立一条IPSEC通道,保证10.0.2.0/24网段可以正常访问到192.168.1.0/24 IPSEC VPPN实验配置(由于是双机热备状态,所以FW1和FW2只需要配置FW1主设…

【MGR】MySQL Group Replication 要求与限制

目录 17.3 Requirements and Limitations 17.3.1 Group Replication Requirements Infrastructure Server Instance Configuration 17.3.2 Group Replication Limitations Limit on Group Size Limits on Transaction Size 17.3 Requirements and Limitations 这个部分列…

项目人都应该来看看!!揭秘项目崩盘背后的逻辑,NFG数藏成破局关键

每天五分钟一套互联网知识,大家好我是啊浩说模式 在投资领域,项目泡沫崩盘是一个屡见不鲜的现象。当某个项目或行业被过度炒作,市场参与者纷纷涌入,推动价格不断攀升,直至形成一个看似坚不可摧的泡沫。然而&#xff0c…

用FPGA CORDIC IP核实现信号的相位检测,计算相位角

用FPGA CORDIC IP核实现信号的相位检测 1.matlab仿真 波形仿真代码: 代码功能:生成一个点频信号s,求出s的实部和虚部;并且结算相位角atan2。画出图形,并且将Q和I数据写入文件中。 %代码功能:生成一个点…

20.网络游戏逆向分析与漏洞攻防-网络通信数据包分析工具-数据分析工具数据类型编辑功能的实现

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易道云信息技术研究院VIP课 上一个内容:19.数据分析工具数据类型配置功能的实现 码云地址(master 分支&#…

unity学习(49)——服务器三次注册限制以及数据库化角色信息4--角色信息数据库化

1.此处下断开始调试,list函数内就有问题: 2. 现在的问题是只读不写!32行就是写入部分的代码: 3. 很奇怪,调试的时候确实是写进来了 程序正常执行后,文件中数据也没有消失 关闭服务器文件内容依旧正常。 players包含所…

Lc11. 盛最多水的容器

题目:给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 思路:定义两个指…

MySQL篇—执行计划之覆盖索引Using index和条件过滤Using where介绍(第三篇,总共三篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、Linux,也在积极的扩展IT方向的其他知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章,并且也会默默的点赞收藏加关注❣…