主动学习与弱监督学习

人工智能数据的获取没有想象中的那么简单,虽然我们早已身处大数据的浪潮下,很多公司在获取数据的大浪中翻滚却始终没有找到一个合适的获取数据的渠道。很多情况下,获取高质量的人工智能数据需要消耗大量的人力、时间、金钱,但是对于未来世界,以“人机协同”的方式为生活创造价值早已成为一个必然的趋势。 试想一下用这些数据来训练一个有监督的机器学习(ML)算法怎么样?ML算法可以执行与人类相同的分类任务,只是速度快得多!它可以减少成本和低效率。它可以减少成本和低效率。它可以在你的混合数据上工作,如图像、文本文件,以及简单的数字。它可以做所有这些事情,如果你的模型够好,你真的可以为所欲为。但是,要想获取这些数据,你要付出巨大的代价。不过我们总是能找到解决方案,如果你发现了一个“主动学习”的机器学习技术,或许如何获取大量数据也不会让你望而却步。

两种流行机器学习技术的比较

机器学习(ML)领域的发展已呈指数级增长,但对于许多企业而言,获取数据仍然是一项艰巨的任务。传统的机器学习算法需要大量人工标注数据。所需的庞大数据通常无法大规模获取,且成本高昂,更不用说手动标注数据所需的时间和精力。成品数据又达不到理想的质量标准。主动学习与弱监督学习:利用这两种出色的机器学习技术克服数据挑战。 标注数据还需要人工标注员。许多情况下,这些标注员在某种程度上是行业专家(SME),他们可以使用他们业内的专业知识进行准确标注。但SME 的可用性有限,而且雇用成本高昂。 考虑到这些挑战,开发人工智能(AI)解决方案的团队从完全监督式学习(需要完整的手动标注数据集训练ML模型)转向主动学习和弱监督学习。后者通常更快,人力成本更低,同时仍能够成功训练模型。了解不同学习技术的工作原理和优势,能够帮助团队决定弱监督学习或主动学习(或两者结合)是否是训练机器模型的合适解决方案。

主动学习与弱监督学习:如何适应监督式学习

首先我们要清楚地知道,在机器学习中存在不同的学习类型,所有这些学习类型均可归为这两大类中的一种:监督学习和无监督学习。在监督学习中,机器接收由人工标注的数据点,并使用这些数据点进行预测。另一方面,无监督学习使用未标注数据;算法必须在没有人工指导的情况下从数据中提取结构和模式。 监督学习还可细分为一系列学习类型。其中就包括主动学习(半监督学习的一种形式)和弱监督学习。

主动学习

主动学习是半监督学习的一种形式。与完全监督学习不同的是,这种学习形式仅从较大规模的未标注数据集中为机器学习算法提供人工标注数据的初始子集。算法对这些数据进行处理,并提供具有一定置信度的预测。低于该置信度水平的任何预测均将表明需要更多的数据。这些低置信度的预测将被发送给标注人员,以标注请求数据的算法。循环重复,直到算法经过训练,并在预期的预测精度下正常运行。 这种迭代的人机协同方法是建立在并非所有样本均有学习价值的基础之上,因此算法会选择所学习的数据。 主动学习的一个关键差异因素是所使用的采样方法,该方法强烈影响着模型的表现方式。数据科学家可以测试不同的采样方法,来选择产生最精确结果的方法。总体而言,与完全监督学习相比,主动学习对人工数据标注的依赖程度较低,因为并非所有数据集都需要标注,仅机器要求的数据点才需标注。

弱监督学习

弱监督学习是一种学习技术,融合了来自各种数据源的知识,其中许多数据源质量较低。这些数据源可能包括:

  • 低成本来自非专业人士的低质量标注数据。
  • 来自SME的高级监督,例如,使用启发法(规则)。启发法可能会这样表述,“如果数据点 = x,则将其标注为 y”。使用一种或一套启发法可以立即标注成千上万,甚至上百万的数据点。
  • 预先训练的旧模型,可能有偏见或有噪声。

这些数据源中的数据通常不精确(数据有标签,但标签并不像期望的那样准确)或不准确(部分标签有错误)。你可以对模型进行编程,以使用简单的技术或标注功能(如模式识别)从收集的数据集中学习。然后,通过调整特征和超参数获得更理想的权重,直到模型达到所需的性能。可根据需要纳入规模较小的监督数据集以完成模型的训练。 弱监督学习是一种编程训练数据的方法,其目的是减少人工手动标注数据所需的时间。当有未标注的数据集需要管理时,或当应用场景明确允许使用弱标签源时,这种方法最适合分类任务。 到这里你大概知道利用主动学习如何能更有效的获取人工智能数据了,如何大量的标记数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/220246.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3-08-条件渲染-v-if 的基本使用

v-if 是什么 v-if 一个指令, 它是用来根据条件表达式,进行选择性地【展示】/【不展示】html元素的。比如 : 有一个按钮A,当条件为真时,展示该按钮;条件为假时,不展示该按钮。与 js 中的 条件判…

绝地求生:PGC2023胜者组D2下半场:17天霸成功晋级,TL、NH跌入最后机会组

第四场 第一名:LGC 第二名:T5 第三名:FaZe 17仅剩两人,T5踩住高点,sujiu前顶时被T5架枪位击倒,小鬼的盾牌没能挡住对方的雷遗憾第五出局。然而T5自己也进圈不易,仅剩两人。 LG独狼卡住T5却忽…

Leetcode 2132. 用邮票贴满网格图(Java + 两次一维前缀和 + 二维差分)

Leetcode 2132. 用邮票贴满网格图(Java 两次一维前缀和 二维差分) 题目 给你一个 m x n 的二进制矩阵 grid ,每个格子要么为 0 (空)要么为 1 (被占据)。给你邮票的尺寸为 stampHeight x sta…

Linux_Ubuntu 系统入门

Ubuntu 系统是和 Windows 系统一样的大型桌面操作系统,因此功能非常强大。 本节的目的是掌握后续嵌入式开发所需的 Ubuntu 基本技能,比如系统的基本设置、常用的 shell 命令、vim 编译器的基本操作等等…… Ubuntu 的图形化界面操作和 Windows 下基本一致…

数据分析基础之《matplotlib(3)—散点图》

一、常见图形种类及意义 1、matplotlib能够绘制折线图、散点图、柱状图、直方图、饼图。我们需要知道不同的统计图的意义,以此来决定选择哪种统计图来呈现我们的数据 2、折线图plot 说明:以折线的上升或下降来表示统计数量的增减变化的统计图 特点&…

智能优化算法应用:基于白鲸算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于白鲸算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于白鲸算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.白鲸算法4.实验参数设定5.算法结果6.参考文献7.MATLAB…

实践干货 | CodeWave如何支持多人协作开发应用

在传统软件开发领域里,要完成具备一定复杂程度的软件,通常都会由一个研发团队协作开发。软件复杂度越大,研发团队的规模也就越大。 为了让研发团队能够高效的进行协同开发,业务引入了优秀的代码版本管理工具,比如传统软…

C语言union联合体(共用体)

一、定义 联合体(共用体)是一种特殊的自定义的数据类型,它包含一系列的成员变量,这些成员变量共用一块内存空间。 语法: union 标识符 { data_type 标识符1; data_type 标识符2; . . . dat…

【数组Array】力扣-5 最长回文子串

目录 题目描述 题解labuladong 题目描述 给你一个字符串 s,找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 示例 1: 输入:s "babad" 输出:"bab"…

在javaweb项目中resource目录和webapp目录的区别

resource存放的是一些配置文件,这些文件一般都是与java代码相关的配置文件,比如这里的jdbc配置文件,在java中可以使用这个目录下的文件,不用写全路径 webapp存放的是web的资源文件,如jsp,html,css,js文件,在网页请求会…

【NSX-T】5. 搭建NSX-T环境 —— NSX架构基础配置

目录 5. 准备 NSX 基础架构5.1 准备工作5.2 创建传输域(1)创建 Overlay 传输域(2)创建 VLAN 传输域 5.3 创建 IP 池5.4 准备 ESXi 主机 参考资料 5. 准备 NSX 基础架构 5.1 准备工作 vCenter 中已存在 DVS。 为 NSX-T 创建两个 …

计算机毕业设计 基于Web的城市旅游网站的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

ARM I2C通信

1.概念 I2C总线是PHLIPS公司在八十年代初推出的一种串行的半双工同步总线,主要用于连接整体电路2.IIC总线硬件连接 1.IIC总线支持多主机多从机,但是在实际开发过程中,大多数采用单主机多从机模式 2.挂接到IIC总线上,每个从机设备都…

现代雷达车载应用——第2章 汽车雷达系统原理 2.4节 雷达波形和信号处理

经典著作,值得一读,英文原版下载链接【免费】ModernRadarforAutomotiveApplications资源-CSDN文库。 2.4 雷达波形和信号处理 对于连续波雷达来说,波形决定了其基本信号处理流程以及一些关键功能。本节将以FMCW波形为例,讨论信号…

EasyRecovery2024苹果电脑mac破解版安装包下载

EasyRecovery是一款操作安全、价格便宜、用户自主操作的非破坏性的只读应用程序,它不会往源驱上写任何东西,也不会对源驱做任何改变。它支持从各种各样的存储介质恢复删除或者丢失的文件,其支持的媒体介质包括:硬盘驱动器、光驱、…

VS Code串口监视插件Serial Monitor

文章目录 初步使用参数设置VS Code插件 初步使用 Serial Monitor,即串行监视器,提供串口和TCP协议的通信监控功能。在插件栏搜索安装之后,按下Ctrl打开终端,终端界面会多出一个串行监视器选项卡,进入之后,…

golang反射(reflect)虽爽,但很贵

标准库 reflect 为 Go 语言提供了运行时动态获取对象的类型和值以及动态创建对象的能力。反射可以帮助抽象和简化代码,提高开发效率。 但是使用反射势必会多出大量的操作指令,导致性能下降 案例 字段赋值方式对比 type Student struct {Name string…

如何使用 Redis 快速实现分布式锁?

本文我们来讨论如何使用 Redis 快速实现分布式锁。 分布式锁有很多种解决方案,前面简单介绍过,Redis 可以通过 set key 方式来实现分布式锁,但实际情况要更加复杂,比如如何确保临界资源的串行执行,如何及时释放&#…

用Flask搭建简单的web模型部署服务

目录结构如下: 分类模型web部署 classification.py import os import cv2 import numpy as np import onnxruntime from flask import Flask, render_template, request, jsonifyapp Flask(__name__)onnx_session onnxruntime.InferenceSession("mobilen…

Tomcat部署Activiti官方 流程设计器【数据库更换为Mysql !!!】

一、官网下载activiti6 解压后结构如下: database: 存放数据库对象相关脚本,包含不同的数据库脚本 libs: 包含activiti开发过程中需要用到的jar包和源码,不建议通过jar包直接引用,建议通过maven进行管理 wars&am…