【机器学习300问】23、什么是主动学习?

一、带标签的数据很难获得

        机器学习中,比如监督学习需要带有标签的训练样本才能得到模型,然而在以下几种场景中去获取带有标签的数据是很难的:

  • 自动驾驶场景:对自动驾驶汽车收集的高清地图数据或实时摄像头数据进行标注,需要标记行人、车辆、交通标志、道路障碍物等,这是一个极度繁琐且昂贵的过程,需要专门团队花费大量时间精细检查和标记每一个像素级别的对象。
  • 情感分析:对文本进行情感倾向标注(如积极、消极或中立)是一项复杂的任务,因为情感往往是微妙且主观的,而且受文化背景、语境和个人表达习惯影响很大。这导致大规模高质量的情感标注数据集构建困难。
  • 医疗影像诊断:医学影像数据(如CT扫描、MRI图像)的标注通常需要医学专家的专业知识才能完成,例如识别肿瘤、病变区域等。这一过程耗时费力,且要求高度专业性和准确性,所以很难快速积累大量的带标签数据。

二、主动学习的定义

        主动学习(Active Learning)是一种旨在通过最少的人工标注工作获得最优模型性能的学习策略。相比于传统的机器学习方法,主动学习不是简单地使用预先标记好的大型数据集进行训练,而是让算法本身参与到数据选择的过程中来,优先选择最有价值样本标注标签。

        说人话:“主动学习是一个帮我将无标签数据标注上标签的模型,还没完!重点在于它可以选择对学习最为有价值的未标注数据。”

        主动学习中有一些特有的用词,在这里用一个表格来解释说明一下:

术语解释
学习者 (Learner)主动学习模型,负责训练和根据策略选择需要标注的样本。
判定者 (Oracle)能够提供准确标签信息的权威来源,可以是人类专家或自动化系统。
提问 (Querying)学习者根据策略选择样本并请求判定者为其标注的过程。
未标注数据池 (Unlabeled Pool)存储待筛选和可能被选中进行标注的大量数据集合。
已标注数据集 (Labeled Dataset)存储已经被判定者正确标注过的数据,用于模型训练。
查询策略 (Query Strategy)决定从未标注数据池中选取哪些样本进行提问的具体方法。

三、主动学习的过程

        主动学习的过程通常可以分为以下几个步骤:

  1. 初始化:首先,从大量未标记的数据中随机选择一小部分来进行手动标记。
  2. 训练:然后,使用这些标记的数据来训练模型。
  3. 选择:模型对剩下的未标记的数据进行预测并为其打分,通常这个分数反映了模型对该样本的不确定性或者信息量。然后选择分数最高的一部分样本,也就是模型最需要学习的样本。
  4. 查询:将这些被选中的样本提交给专家进行标记。
  5. 更新:将新标记的样本加入到训练集中,并使用更新后的训练集来重新训练模型。
  6. 循环迭代:重复第3步到第5步,直到达到预设的条件,例如循环次数、模型性能或者标注预算。

        主动学习的核心就是在第3步,如何选择最需要学习的样本,不同的主动学习算法会有不同的选择策略。

学习者、判定者、提问

四、常见的样本选择策略

        如上所说,如何去选择一个最需要学习的样本,给它打上标签非常关键。这里只详细介绍一个策略。

(1)最低置信度策略的思想

        最低置信度(Least Confidence)是一种常见的样本选择策略,用于确定下一步应该优先标注哪些未标注样本。这种策略假设模型对某个样本的预测越不确定,那么这个样本就可能越重要,因为它有可能提供更多的信息帮助模型改进。

        具体来说,对于一个多分类问题,最低置信度策略计算每个未标注样本属于任一类别预测的概率,并选择其中模型预测信心最小的样本作为下一个请求标注的对象。计算方式通常是找到模型输出的概率向量中最大概率值对应的索引,然后取1减去这个最大概率值,得到的就是模型对该样本预测的不确信度。

(2)手写字体识别举例

        假设模型正在对数字手写体识别任务进行训练,对于一个未标注的手写数字图片,模型可能输出 [0.1, 0.2, 0.3, 0.15, 0.25] 这样的概率分布,表示模型认为该图片分别是0, 1, 2, 3, 4的概率。此时,模型对这个样本预测的最大概率为0.3(属于类别2的概率),那么不确信度为1 - 0.3 = 0.7。若这是所有样本中最大的不确信度,则该样本会被选作下一个请求专家标注的样本。

        通过这种方式,最低置信度策略可以优先挑选那些模型最难确定类别的样本,从而期望通过获取它们的真实标签来最大程度地提升模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/677821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习复习(8)——逻辑回归

目录 逻辑函数(Logistic Function) 逻辑回归模型的假设函数 从逻辑回归模型转换到最大似然函数过程 最大似然函数方法 梯度下降 逻辑函数(Logistic Function) 首先,逻辑函数,也称为Sigmoid函数&#…

2.9 Binance_interface APP 现货交易-限单价平仓

Binance_interface APP 现货交易-限单价平仓 Github地址PyTed量化交易研究院 量化交易研究群(VX) py_ted目录 Binance_interface APP 现货交易-限单价平仓1. APP 现货交易-限单价平仓函数总览2. 模型实例化3. 同步 非堵塞 固定价格平仓(卖出)4. 同步 …

Cubase学习:音频转midi

大家好!我是诗书画唱!今天要分享的小技巧就是Cubase中的音频转midi的功能!希望对你有所帮助!以后我会在这个账号分享自己知道的很多小技巧!关注我!不迷路!大家也可以关注我后,在我的空间搜索关键词,找到各种对应的教程进行学习,非常的方便!而且自己的教程会尽可能纠…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Web组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Web组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、Web组件 提供具有网页显示能力的Web组件,ohos.web.webview提供web控制能…

开发者福利,微软Xamarin不再收费

Build2016大会已经进行到第二天的主题演讲,微软在大会上宣布Xamarin对全部Visual Studio用户免费开放,而所有Visual Studio版本都会捆绑Xamarin这个跨平台开发工具。Xamarin免费是开发者的福利,因为原本Visual Studio就有免费的“社区版”&am…

爬虫练习——动态网页的爬取(股票和百度翻译)

动态网页也是字面意思:实时更新的那种 还有就是你在股票这个网站上,翻页。他的地址是不变的 是动态的加载,真正我不太清楚,只知道他是不变的。如果用静态网页的方法就不可行了。 静态网页的翻页,是网址是有规律的。 …

【国产MCU】-CH32V307-触摸按键检测(TKEY)

触摸按键检测(TKEY) 文章目录 触摸按键检测(TKEY)1、TKEY介绍2、TKEY使用实例触摸检测控制(TKEY)单元,借助ADC 模块的电压转换功能,通过将电容量转换为电压量进行采样,实现触摸按键检测功能。检测通道复用ADC 的16 个外部通道,通过ADC 模块的单次转换模式实现触摸按键…

人工智能时代的遥感技术

时相遥感影像变化检测是指对同一地理区域、不同时间获取的遥感影像进行自动变化发现、识别与 解释的遥感处理与分析技术。随着卫星遥感技术及人工智能理论方法的快速发展,基于多时相遥感影像数据驱 动和模型驱动的传统变化检测方法正朝着数据一模型一知识联合驱动的…

设计模式第五天|代理模式 7-小明买房子 装饰模式 8-咖啡加糖

目录 【设计模式专题之代理模式】7-小明买房子【设计模式专题装饰模式】8-咖啡加糖 【设计模式专题之代理模式】7-小明买房子 文章链接:卡码网设计模式 题目链接:7-小明买房子 这里注意在HomeAgent类里需要定义对象成员变量HomeBuyer,这里在实…

【MySQL】-12 MySQL索引(上篇MySQL索引类型前置-2-高性能的索引策略)

MySQL索引-高性能的索引策略 3 高性能的索引策略3.1 独立的列3.2 前缀索引和索引选择性3.3 多列索引3.4 选择合适的索引列顺序3.5 聚簇索引(Clustered Indexes)3.5.1 InnoDB和MyISAM的数据布局的比较3.5.2 按primary key的顺序插入行(InnoDB) 3.6 覆盖索引(Covering Indexes)3.…

Linux dump命令教程:如何安全快速备份你的文件系统(附实例详解和注意事项)

Linux dump命令介绍 dump命令在Linux中用于备份文件系统到某个存储设备。它备份的是整个文件系统,而不是单个文件。换句话说,它将所需的文件备份到磁带、磁盘或任何其他存储设备以进行安全存储。dump命令在Linux中只适用于ext2/ext3文件系统&#xff0c…

【计算几何】给定一组点的多边形面积

目录 一、说明二、有序顶点集三、无序顶点集3.1 凸多边形3.2 非凸多边形 四、结论 ​ 一、说明 计算多边形面积的方法有很多种。众所周知的多边形(如三角形、矩形、正方形、梯形等)的面积可以使用简单的数学公式计算。在这篇文章中,我将讨论…

Vulnhub靶机:hacksudo-search

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:hacksudo-search(10.0.2.50) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnhub.co…

寒假作业2024.2.6

1.现有无序序列数组为23,24,12,5,33,5347&#xff0c;请使用以下排序实现编程 函数1:请使用冒泡排序实现升序排序 函数2:请使用简单选择排序实现升序排序 函数3:请使用直接插入排序实现升序排序 函数4:请使用插入排序实现升序排序 #include <stdio.h> #include <stdl…

代码随想录|Day 15

Day 15 年三十 今天太忙了… 一、理论学习 二、刷题学习 104. 二叉树的最大深度 应该确实比以前有提升了 已经能写出这么精简的代码了 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeN…

掌握rm命令:Linux文件删除的艺术与安全指南

1. 引言 在Linux和UNIX-like系统中&#xff0c;rm&#xff08;remove&#xff09;命令是一个基础且强大的工具&#xff0c;用于删除文件和目录。由于其强大的功能&#xff0c;rm命令在日常使用中必须谨慎操作&#xff0c;以避免不小心删除重要数据。本文旨在提供一个全面的指南…

算法学习——LeetCode力扣二叉树篇1

算法学习——LeetCode力扣二叉树篇1 144. 二叉树的前序遍历 144. 二叉树的前序遍历 - 力扣&#xff08;LeetCode&#xff09; 描述 给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 示例 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&a…

3D裸眼技术行业研究:2026年市场投资规模为10.78亿元

3D裸眼技术大多处于研发阶段&#xff0c;它的研发分两个方向&#xff0c;一是硬件设备的研发&#xff0c;二为显示内容的处理研发。第二种已经开始小范围的商业运用。大众消费者接触的不多。从技术上来看&#xff0c;3D裸眼可分为光屏障式(Barrier)、柱状透镜(Lenticular Lens)…

MySQL如何定位慢查询

MySQL中定位慢查询通常涉及到以下几个步骤&#xff1a; 1. 慢查询日志 开启慢查询日志是识别慢查询的第一步。通过设置slow_query_log变量为1&#xff0c;MySQL会记录所有执行时间超过long_query_time秒的查询。 -- 开启慢查询日志 SET GLOBAL slow_query_log ON;-- 设置慢…

解释Python中的GIL(全局解释器锁)及其影响。描述Python中的垃圾回收机制。Python中的类变量和实例变量有什么区别

解释Python中的GIL&#xff08;全局解释器锁&#xff09;及其影响 Python中的GIL&#xff08;全局解释器锁&#xff09;是CPython解释器中的一个机制&#xff0c;用于同步线程的执行。GIL确保任何时候只有一个线程在执行Python字节码。这意味着&#xff0c;即使在多核或多处理器…