主动学习与弱监督学习

人工智能数据的获取没有想象中的那么简单,虽然我们早已身处大数据的浪潮下,很多公司在获取数据的大浪中翻滚却始终没有找到一个合适的获取数据的渠道。很多情况下,获取高质量的人工智能数据需要消耗大量的人力、时间、金钱,但是对于未来世界,以“人机协同”的方式为生活创造价值早已成为一个必然的趋势。 试想一下用这些数据来训练一个有监督的机器学习(ML)算法怎么样?ML算法可以执行与人类相同的分类任务,只是速度快得多!它可以减少成本和低效率。它可以减少成本和低效率。它可以在你的混合数据上工作,如图像、文本文件,以及简单的数字。它可以做所有这些事情,如果你的模型够好,你真的可以为所欲为。但是,要想获取这些数据,你要付出巨大的代价。不过我们总是能找到解决方案,如果你发现了一个“主动学习”的机器学习技术,或许如何获取大量数据也不会让你望而却步。

两种流行机器学习技术的比较

机器学习(ML)领域的发展已呈指数级增长,但对于许多企业而言,获取数据仍然是一项艰巨的任务。传统的机器学习算法需要大量人工标注数据。所需的庞大数据通常无法大规模获取,且成本高昂,更不用说手动标注数据所需的时间和精力。成品数据又达不到理想的质量标准。主动学习与弱监督学习:利用这两种出色的机器学习技术克服数据挑战。 标注数据还需要人工标注员。许多情况下,这些标注员在某种程度上是行业专家(SME),他们可以使用他们业内的专业知识进行准确标注。但SME 的可用性有限,而且雇用成本高昂。 考虑到这些挑战,开发人工智能(AI)解决方案的团队从完全监督式学习(需要完整的手动标注数据集训练ML模型)转向主动学习和弱监督学习。后者通常更快,人力成本更低,同时仍能够成功训练模型。了解不同学习技术的工作原理和优势,能够帮助团队决定弱监督学习或主动学习(或两者结合)是否是训练机器模型的合适解决方案。

主动学习与弱监督学习:如何适应监督式学习

首先我们要清楚地知道,在机器学习中存在不同的学习类型,所有这些学习类型均可归为这两大类中的一种:监督学习和无监督学习。在监督学习中,机器接收由人工标注的数据点,并使用这些数据点进行预测。另一方面,无监督学习使用未标注数据;算法必须在没有人工指导的情况下从数据中提取结构和模式。 监督学习还可细分为一系列学习类型。其中就包括主动学习(半监督学习的一种形式)和弱监督学习。

主动学习

主动学习是半监督学习的一种形式。与完全监督学习不同的是,这种学习形式仅从较大规模的未标注数据集中为机器学习算法提供人工标注数据的初始子集。算法对这些数据进行处理,并提供具有一定置信度的预测。低于该置信度水平的任何预测均将表明需要更多的数据。这些低置信度的预测将被发送给标注人员,以标注请求数据的算法。循环重复,直到算法经过训练,并在预期的预测精度下正常运行。 这种迭代的人机协同方法是建立在并非所有样本均有学习价值的基础之上,因此算法会选择所学习的数据。 主动学习的一个关键差异因素是所使用的采样方法,该方法强烈影响着模型的表现方式。数据科学家可以测试不同的采样方法,来选择产生最精确结果的方法。总体而言,与完全监督学习相比,主动学习对人工数据标注的依赖程度较低,因为并非所有数据集都需要标注,仅机器要求的数据点才需标注。

弱监督学习

弱监督学习是一种学习技术,融合了来自各种数据源的知识,其中许多数据源质量较低。这些数据源可能包括:

  • 低成本来自非专业人士的低质量标注数据。
  • 来自SME的高级监督,例如,使用启发法(规则)。启发法可能会这样表述,“如果数据点 = x,则将其标注为 y”。使用一种或一套启发法可以立即标注成千上万,甚至上百万的数据点。
  • 预先训练的旧模型,可能有偏见或有噪声。

这些数据源中的数据通常不精确(数据有标签,但标签并不像期望的那样准确)或不准确(部分标签有错误)。你可以对模型进行编程,以使用简单的技术或标注功能(如模式识别)从收集的数据集中学习。然后,通过调整特征和超参数获得更理想的权重,直到模型达到所需的性能。可根据需要纳入规模较小的监督数据集以完成模型的训练。 弱监督学习是一种编程训练数据的方法,其目的是减少人工手动标注数据所需的时间。当有未标注的数据集需要管理时,或当应用场景明确允许使用弱标签源时,这种方法最适合分类任务。 到这里你大概知道利用主动学习如何能更有效的获取人工智能数据了,如何大量的标记数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/220246.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3-08-条件渲染-v-if 的基本使用

v-if 是什么 v-if 一个指令, 它是用来根据条件表达式,进行选择性地【展示】/【不展示】html元素的。比如 : 有一个按钮A,当条件为真时,展示该按钮;条件为假时,不展示该按钮。与 js 中的 条件判…

绝地求生:PGC2023胜者组D2下半场:17天霸成功晋级,TL、NH跌入最后机会组

第四场 第一名:LGC 第二名:T5 第三名:FaZe 17仅剩两人,T5踩住高点,sujiu前顶时被T5架枪位击倒,小鬼的盾牌没能挡住对方的雷遗憾第五出局。然而T5自己也进圈不易,仅剩两人。 LG独狼卡住T5却忽…

Leetcode 2132. 用邮票贴满网格图(Java + 两次一维前缀和 + 二维差分)

Leetcode 2132. 用邮票贴满网格图(Java 两次一维前缀和 二维差分) 题目 给你一个 m x n 的二进制矩阵 grid ,每个格子要么为 0 (空)要么为 1 (被占据)。给你邮票的尺寸为 stampHeight x sta…

Linux_Ubuntu 系统入门

Ubuntu 系统是和 Windows 系统一样的大型桌面操作系统,因此功能非常强大。 本节的目的是掌握后续嵌入式开发所需的 Ubuntu 基本技能,比如系统的基本设置、常用的 shell 命令、vim 编译器的基本操作等等…… Ubuntu 的图形化界面操作和 Windows 下基本一致…

数据分析基础之《matplotlib(3)—散点图》

一、常见图形种类及意义 1、matplotlib能够绘制折线图、散点图、柱状图、直方图、饼图。我们需要知道不同的统计图的意义,以此来决定选择哪种统计图来呈现我们的数据 2、折线图plot 说明:以折线的上升或下降来表示统计数量的增减变化的统计图 特点&…

使用Docker快速搭建一套三主三从Redis集群用于开发、测试

文章目录 一 基本概念二 部署流程2.1 准备配置文件2.2 启动6个 Docker 容器2.3 集群搭建 三 总结四 参考资料 一 基本概念 Redis集群是一种通过将多个Redis节点连接在一起以实现高可用性、数据分片和负载均衡的技术。它允许Redis在不同节点上同时提供服务,提高整体…

智能优化算法应用:基于白鲸算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于白鲸算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于白鲸算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.白鲸算法4.实验参数设定5.算法结果6.参考文献7.MATLAB…

实践干货 | CodeWave如何支持多人协作开发应用

在传统软件开发领域里,要完成具备一定复杂程度的软件,通常都会由一个研发团队协作开发。软件复杂度越大,研发团队的规模也就越大。 为了让研发团队能够高效的进行协同开发,业务引入了优秀的代码版本管理工具,比如传统软…

C语言union联合体(共用体)

一、定义 联合体(共用体)是一种特殊的自定义的数据类型,它包含一系列的成员变量,这些成员变量共用一块内存空间。 语法: union 标识符 { data_type 标识符1; data_type 标识符2; . . . dat…

linux面试题 Java工程师、C++工程师、iOS工程师、安卓工程师、运维工程师、PHP工程师、安全工程师、2020、golang工程师等面试可用

下列有关const限定符说法错误的是: A. 可以将一个非const对象的地址赋给一个指向const对象的指针B. 可以将一个非const对象的地址赋给一个指向非const对象的指针C. 一个const对象不可以被多次赋值D. 通过const对象指针可以改变全局const对象内容 正确答案&#xff1…

华为OD机试-内存冷热标记(JavaPythonJs)100%通过率

题意 现代计算机系统中通常存在多级的存储设备,针对海量workload的优化的一种思路是将热点内存页优先放到快速存储层级,这就需要对内存页进行冷热标记。 一种典型的方案是基于内存页的访问频次进行标记,如果统计窗口内访问次数大于等于设定闽值,则认为是热内存页,否则是冷…

第18节:Vue3 数组和集合的注意事项

在UniApp中使用Vue3框架时,处理数组和集合需要注意以下几点: 数组和集合的初始化:在Vue3中,可以使用ref()函数来创建一个响应式引用对象,然后使用该引用来初始化数组或集合。例如: import { ref } from vu…

【数组Array】力扣-5 最长回文子串

目录 题目描述 题解labuladong 题目描述 给你一个字符串 s,找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 示例 1: 输入:s "babad" 输出:"bab"…

MySQL:JSON语法说明

一、SELECT JSON_OVERLAPS([5261,5265], [5265,5278,1000]) -- 0不存在 1存在(比较两个数组是否有匹配) 二、SELECT JSON_CONTAINS([1,2,3,4,5,6,7], CAST(4 AS CHAR)) -- key是字符串类型(比较字符串是否在数组中存在) 三、JSON_EXTRACT(eas.question_…

在javaweb项目中resource目录和webapp目录的区别

resource存放的是一些配置文件,这些文件一般都是与java代码相关的配置文件,比如这里的jdbc配置文件,在java中可以使用这个目录下的文件,不用写全路径 webapp存放的是web的资源文件,如jsp,html,css,js文件,在网页请求会…

Golang 链表的创建和读取 小记

文章目录 链表的相关知识链表的创建:模拟方式建立链表的**递归创建** 链表的读取遍历读取递归读取 完整代码 链表的相关知识 链表有时会具有头节点,头节点的指针指向第一个节点的地址,其本身的数据域可以根据自己的选择进行赋值   接下来我将以将int转…

【NSX-T】5. 搭建NSX-T环境 —— NSX架构基础配置

目录 5. 准备 NSX 基础架构5.1 准备工作5.2 创建传输域(1)创建 Overlay 传输域(2)创建 VLAN 传输域 5.3 创建 IP 池5.4 准备 ESXi 主机 参考资料 5. 准备 NSX 基础架构 5.1 准备工作 vCenter 中已存在 DVS。 为 NSX-T 创建两个 …

计算机毕业设计 基于Web的城市旅游网站的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

css中2D/3D的变化

变换可以改变元素的位置、大小、旋转、倾斜等属性,以创建各种动态效果。 一、常用的2D变换: 平移(translate):使用 translate() 函数来改变元素的位置。可以指定水平和垂直方向的偏移量,如 transform: tra…

【RabbitMQ高可用集群架构】

文章目录 一、保证RabbitMQ服务高可用1.RabbitMQ如何保证消息安全2、搭建普通集群3、搭建镜像集群 RabbitMQ如何保证消息不丢失1、RabbitMQ消息零丢失方案:1》生产者保证消息正确发送到RibbitMQ2》 RabbitMQ消息存盘不丢消息3》 RabbitMQ 主从消息同步时不丢消息4》…