什么是主动学习(Active Learning)?定义,原理,以及主要方法

数据是训练任何机器学习模型的关键。但是,对于研究人工智能的企业和团队而言,数据仍是实现成功的最大障碍之一。首先,您需要大量数据来创建高性能模型。更重要的是,您需要标注准确的数据。虽然许多团队一开始都是手动标注数据集,但更多团队已逐渐实现数据标注的部分自动化,比如采用主动学习方法(Active Learning),以提高效率。

如果想要了解主动学习,您首先需要了解监督机器学习和无监督机器学习之间的区别。监督学习认为,我们需要为机器提供标注正确的数据,让机器从这些示例中学习如何正确标注数据。无监督学习则认为,要为机器提供未标注的、混乱的数据。机器可以自主识别数据的模式和结构。每种方法各有千秋;本文主要讨论主动学习所属的监督学习范畴。

主动学习方法

主动学习属于我们所说的“半监督学习”。完全监督学习方法会为模型提供完整的标注数据集,而半监督主动学习方法则仅为模型提供数据集的标注子集,认为在训练过程中,并非所有数据都是必需的、有价值的。主动学习过程涉及数据集中哪些数据需要优先标注。从本质上讲,模型可以主动选择想要学习的数据。

工作原理

在主动学习中,有三种典型场景。知名度最高的一种场景称为基于池的采样(Pool-based Sampling),它遵循以下五个步骤:

  1. 人员(在此过程中称为Oracle)标注数据集的一小部分,并将标注数据提供给模型。
  2. 模型(称为主动学习者)处理这些数据,并以一定的置信度预测未标注数据点的类别。
  3. 假设初始预测低于所需精度和置信度,则会使用采样技术确定下一个需要标注的数据子集。
  4. 人员标注选定的数据子集并将标注的数据子集发送回模型进行处理。
  5. 该过程将继续,直至模型的预测达到所需的置信度和精度水平。

另一个主动学习场景即基于流的选择采样(Stream-based Selective Sampling)。在此场景中,模型会接收到一个未标注的数据点,并且必须立即决定是否要标注该数据点。

在主动学习的第三种方法——成员查询合成(Membership Query Synthesis)场景中,模型构建自身的标注示例。

主动学习的采样方法

采样方法,也称为查询策略,是主动学习方法成功的关键。不佳的采样方法会导致不良的模型预测,从而在主动学习周期中进行更多的迭代。两种最常见的采样方法即不确定性采样(Uncertainty Sampling)和委员会投票选择(Query-By-Committee)。

不确定性采样 Uncertainty Sampling

顾名思义,不确定性采样优先标注模型最不确定的数据点。不确定性采样运用以下几种技术:

  • 最低置信度:该算法可以将预测从最低置信度到最高置信度排序。选择标注那些置信度最低的数据。
  • 最小分类间隔:算法会比较各数据点的最高概率类预测和次高概率类预测。优先标注分类间隔最紧密的数据点,因为模型最不确定这些数据的类别。
  • 熵方法:机器会通过一个方程确定类别预测中具有最高不确定性(也称为熵)的数据点。这些数据点会被优先标注。
委员会投票选择 Query-By-Committee

该方法使用多个基于同一数据集进行训练的模型,共同确定需要标注的其他数据点。模型间分歧最大的地方是要选择标注哪些数据点。

其他常见的采样方法还有预期影响和密度加权,尽管这些方法的使用频率不比上述几种方法。在任何情况下,所使用的采样方法都是影响模型达到标准性能之速度的重要决定因素。

您需要试验多种不同的方法,以达到最佳性能,因为没有一种方法对每个用例都最为有效。

何时选择主动学习方法

对一些组织而言,手动标注完整的数据集(如在监督学习方法下)需要花费高额成本和时间,这就是为什么一些团队正在转向半监督和无监督ML方法。在以下部分或所有情况下,最好采用主动学习方法:

  • AI解决方案需要迅速进入市场,并且手动标注数据可能会对项目构成风险。
  • 没有足够的资金聘请数据科学家或SME手动标注所有数据。
  • 没有足够的人员手动标注所有数据。
  • 具有大量未标注的数据。

与传统的监督学习相比,主动学习的成本更低,速度更快,但您仍需考虑构建有效模型所需的计算成本和迭代。如果操作正确,主动学习方法所构建的模型能够达到与传统方法所构建的模型同等的质量和精度。

对数据科学团队而言,主动学习技术起着关键作用。因为所选择的采样方法可以决定主动学习方法的整体有效性。在某些情况下,您可以寻求外援;例如,和第三方数据供应商建立合作伙伴关系,创建高效的主动学习流程。

AI主动学习的未来

主动学习是AI的未来吗?目前来看,主动学习方法可以代替完全监督学习方法。另外,主动学习方法可以用于超大型数据集,协助数据科学团队更智能、更高效地标注数据。数据是卓越AI的重要基础,但如果操作不当,数据也会成为AI的最大障碍。因此,高效的主动学习方法在当下备受青睐。

研究人员正在努力设计主动学习采样方法,以不断改进先前方法,并希望我们能够推广那些表现最好的方法。虽然还需要进一步研究(例如,仍然难以提前确定主动学习方法是否适用于某一特定数据集),但主动学习仍是人机协同过程中的有效方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/218409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows mysql5.7 执行查询/开启/测试binlog---简易记录

前言:基于虚拟机mysql版本为5.7,增量备份测试那就要用到binlog… 简述:二进制日志(binnary log)以事件形式记录了对MySQL数据库执行更改的所有操作。 binlog是记录所有数据库表结构变更(例如CREATE、ALTER…

工业元宇宙与数字孪生的爱恨情仇

尽管许多技术专家还在思考元宇宙虚拟世界将如何影响企业和消费者,但工业元宇宙虚拟世界已经开始革新人们在设计、制造和与各行业物理实体互动方面的方式。 元宇宙与数字孪生 简单来说,数字孪生是产品或流程的虚拟副本,可以预测物理实体在整…

保护您的数据,SMART Utility for Mac硬盘检测助您一臂之力!

在现代社会中,我们的生活离不开电脑和存储设备。然而,硬盘故障可能会带来严重的数据丢失和系统崩溃。为了保护您的数据安全,我们推荐您使用SMART Utility for Mac,这是一款专为Mac用户设计的硬盘检测工具。 SMART Utility for Ma…

web Speech Synthesis 文字语音播报,Audio 播放base64提示音

SpeechSynthesisUtterance基本介绍 SpeechSynthesisUtterance是HTML5中新增的API,用于将指定文字合成为对应的语音.也包含一些配置项,指定如何去阅读(语言,音量,音调)等 SpeechSynthesisUtterance基本属性 SpeechSynthesisUtterance.lang 获取并设置话语的语言SpeechSynthesisU…

面向 SEO 专业人士的完整 Google Search Console 指南

了解 Google Search Console 并释放其功能,以改善您的网站运行状况和搜索性能。 Google Search Console 提供监控网站在搜索中的表现和提高搜索排名所需的数据,这些信息只能通过 Search Console 获得。 这使得它对于热衷于最大化成功的在线业务和出版商…

C++ 教程 - 02 复合数据类型

文章目录 数组vector字符串输入输出结构体枚举指针引用综合案例 数组 相同类型的数据的集合{ },通过索引访问元素;在内存中连续存储,属于顺序表;插入、删除时间复杂度 O ( n ) O(n) O(n),访问复杂度 O ( 1 ) O(1) O(1…

用到了C语言的函数指针功能。

请选择一个功能&#xff1a; 1. 加法 2. 减法 3. 乘法 4. 除法 5. 取模 6. 阶乘 7. 判断素数 8. 球体体积 9. 斐波那契数列 10. 幂运算 11. 最大公约数 12. 最小公倍数 13. 交换数字 14. 排序 15. 退出 请选择一个选项&#xff1a; #include <stdio.h> #include <stdl…

48.0/图片和多媒体文件的使用(详细版)

目录 48.1 网页中插入图片 48.1.1 基本语法 48.1.2 常见属性 48.2 图片超链接 48.3 设置图片热区链接 48.4 将图片作为网页背景 48.5 滚动字幕 48.6 插入多媒体文件 48.1 网页中插入图片 48.1.1 基本语法 <img src=“图片地址”> img 标记用于将图像插入到 HTML…

【Java 基础】32 定时调度

文章目录 Timer 类创建 Timer注意事项 ScheduledExecutorService 接口创建 ScheduledExecutorService注意事项 选择合适的定时调度方式Timer 的适用场景ScheduledExecutorService 的适用场景 总结 在软件开发中&#xff0c;定时任务是一种常见的需求&#xff0c;用于周期性地执…

Linux 中的 container_of 原理

源码基于&#xff1a;Linux 5.10 0.前言 container_of() 这个宏函数在Linux 内核中使用的频率还是很多的。网上关于 container_of 使用的优秀文章也很多&#xff0c;之所以笔者也写一篇&#xff0c;一是想更新下最新代码中的使用&#xff0c;二是融入些自己的拙见&#xff0c;…

CESM笔记——component活动状态+compset前缀解析+B1850,BHIST区别

时隔一年没写CSDN笔记了&#xff0c;一些CESM的知识点我都快忘了。诶&#xff0c;主要是在国外办公室的网屏蔽了好多国内的网络&#xff0c;CSDN登不上&#xff0c;回家又不想干活。。。好吧&#xff0c;好多借口。。。 昨天师弟问我一些问题&#xff0c;想想要不可以水一篇小…

python安装步骤

1.1 python下载地址 python官网 1.2 详细安装步骤 1.2.1 双击安装包打开&#xff0c;勾选最下边两个方框&#xff0c;然后选择自定义安装&#xff0c;如下图。 1.2.2 这一页默认是全部勾选上的&#xff0c;点击下一步。 1.2.3 修改安装路径&#xff0c;默认是C盘&#xff0c…

【Git 小妙招】走进 Git 的分支管理(万字图文讲解)

文章目录 前言1. 理解分支2. 创建分支3. 切换分支4. 合并分支5. 删除分支6. 合并冲突7. 分支管理策略7.1 一个简单的分支策略(仅参考) 8. bug 分支9. 删除临时分支总结 前言 本文开始介绍 Git 的杀手级功能之⼀&#xff1a;分⽀。本文涉及分⽀创建&#xff0c;切换&#xff0c…

16:00的面试,16:07就出来了,问的问题过于变态了。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到六月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40…

园区网络虚拟化应该这样建

下午好&#xff0c;我的网工朋友。 今天和你聊聊怎么建立园区网络虚拟化。 区别于传统园区关注独立的单台设备&#xff0c;虚拟化网络关注全网的整体业务体验&#xff0c;通过iMaster NCE-Campus和VXLAN技术&#xff0c;实现网络资源能够任意灵活调度。 通过虚拟化技术&…

【Redis】深入理解 Redis 常用数据类型源码及底层实现(1.结构与源码概述)

在文章【Redis】不卡壳的 Redis 学习之路&#xff1a;从十大数据类型开始入手中我们介绍了Redis常用的10大数据类型&#xff0c;这10大数据类型可并不是直接在底层通过代码实现的&#xff0c;而是通过不同的底层数据结构组合起来的&#xff0c;这篇我们介绍下Redis常用数据类型…

CSAPP——linux下的 status 函数及进程退出/进程回收详解

status函数是一个系统调用&#xff0c;用于获取子进程的退出状态。它通常在父进程中使用&#xff0c;以便检查子进程是否正常退出或出现错误。 status函数的原型如下&#xff1a; int waitpid(pid_t pid, int *status, int options); pid参数指定要等待的子进程的进程ID stat…

网络安全这条路,如何打怪升级干掉大Boss?

企业对网络安全的重视是挂在嘴上还是落实在行动中&#xff1f;网络安全人员岗位设置是否合理而有效&#xff1f;网络安全从业者最需要什么样的技能培训&#xff1f;网络安全从业者的职业发展路径应该如何规划&#xff1f;一份“网络安全从业人员现状调查”报告&#xff0c;解你…

与OA完美契合的开放式低代码平台

随着企业数字化转型的加速&#xff0c;越来越多的企业开始寻求能够快速适应业务需求变化、降低IT成本、提高运营效率的信息系统解决方案。OA作为面向企业日常办公需求的信息系统&#xff0c;在提高企业内部协作效率、优化业务流程、降低运营成本方面具有重要的作用。 它涵盖了…

山西电力市场日前价格预测【2023-12-13】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2023-12-13&#xff09;山西电力市场全天平均日前电价为331.79元/MWh。其中&#xff0c;最高日前电价为371.77元/MWh&#xff0c;预计出现在11:15。最低日前电价为280.66元/MWh&#xff0c;预计…