吴恩达机器学习全课程笔记第五篇

目录

前言

P80-P85

添加数据

迁移学习

机器学习项目的完整周期

公平、偏见与伦理

P86-P95

倾斜数据集的误差指标 

决策树模型

测量纯度

选择拆分方式增益

使用分类特征的一种独热编码

连续的有价值特征

回归树

前言

这是吴恩达机器学习笔记的第五篇,第四篇笔记请见:

吴恩达机器学习全课程笔记第四篇

完整的课程链接如下:

吴恩达机器学习教程(bilibili)

推荐网站:

scikit-learn中文社区

吴恩达机器学习资料(github)

P80-P85

机器学习的迭代发展:

以“垃圾邮箱分类器”为例,如何减少学习算法中可能出现的错误?

添加数据

有一种技术,特别是对于图像和音频数据,可以显著增加训练集大小,这种技术称为“数据增强

如图所示,改变x使之有相同的y,以达到数据增强的效果

除了图像数据,对于音频数据,也可以进行数据增强,如下所示:

在数据增强中,如果加入的扭曲(噪声)不合适,可能不会对增大数据集产生作用

除了使用数据增强去添加数据之外,还可以使用合成数据去添加数据

合成数据是基于计算机模拟或算法生成模仿现实世界观察的人造数据,简言之,合成数据是人工制造的模拟数据

以OCR照片为例,现在想要训练一个模型去提取图片中的文字:

下面是一个真实的数据:

为这项任务创建人工数据的一种方法是:转到计算机的文本编辑器,里面有很多不同的字体,使用这些字体在文本编辑器中键入随机文本,截图它们并使用不同颜色、不同对比度和不同的字体

迁移学习

对于一个没有那么多数据的应用程序,可以使用迁移学习,它允许使用来自不同任务的数据来帮助你的应用程序

如上图所示,对于一个数据集很小很小的网络,建议使用选项一,即仅仅训练输出层的参数,否则使用选项二

迁移学习的一个好处是:你可能不需要称为监督的执行人,许多神经网络的预训练已经有研究人员在大图像上训练了神经网络,会在网上发布一个经过训练的神经网络,免费授权给任何人下载和使用

迁移学习的总结如下:

机器学习项目的完整周期

确定项目的范围------->定义和收集数据<---------->训练模型、误差诊断、迭代优化------->部署、检测、维持模型系统

下面展示的是模型部署的一些细节

如图,开发的移动应用可以通过api进行调用

部署过程需要一定的软件工程技术,软件工程需要编写代码使得可靠准确的预测、扩大服务范围、保存数据、系统监控、模型更新

MLOps是一门工程学科,旨在统一 ML 系统开发(dev)和 ML 系统部署(ops),以标准化过程生产高性能模型的持续交付

公平、偏见与伦理

除了偏见之外,公平对待个人,机器学习也有一些负面用例

下面有一些让你工作更公平的建议,在部署可能造成伤害的系统之前,减少偏见,更道德

P86-P95

倾斜数据集的误差指标 

如果你正在开发机器学习应用程序,数据集的正面和负面例子非常不平衡,会发现,通常的误差度量如准确率不会那么有效

比如下面这个罕见疾病检测的问题,我们的学习算法成功诊断概率是99%,即误差1%,但如果全世界只有0.5%的人发生这种疾病,即使我写一个print("y=0")的程序,即永远告诉病人没有患病的误差0.5%都比上面那个1%低。因此单单看准确率去评判学习算法是不够的

精确率和召回率的定义如下:

提高输出标签1的门槛,即像下面一样把0.5改成0.7再改成0.9会提高准确率、降低召回率

下面展示如何权衡准确率和召回率

取平均值的方法并不是一个好的方法,而使用F1 score权衡可以强调两个指标中更小的那个

通过F1 score去权衡上述这两个指标从而选择学习算法

决策树模型

许多用来赢得机器学习比赛的应用程序是决策树和树的集合

以检测是否为猫的算法为例:

决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值

给定训练集构建决策树的过程有几个步骤

第一个步骤是:在每个节点上使用什么特征去划分

第一个步骤是:决定什么什么停止划分

测量纯度

通过熵函数可以测量一组数据的不纯度

熵函数真实的表达式如下所示:

选择拆分方式增益

在构建决策树时,我们将决定在结点上拆分什么特征,将决定根据什么特征在减少熵,学习熵的减少称为信息增益

如下图所示,计算每一种拆分方式的信息增益,就是用原来的熵减去新的熵

总结起来,信息增益的计算方式如下:

决策树构建过程总结

使用分类特征的一种独热编码

在刚才的例子中,对于耳朵这个特征不是圆的就是尖的,下面使用独热编码解决这个问题

也就是说:如果一个分类特征有k个值,那么就创造k个二进制数字(取值0或1)

 

连续的有价值特征

上面的特征都是离散的,当特征是连续值是会怎么样呢

比如在上面例子的基础上加一个体重的特征

选择不同的阈值,计算信息增益然后决定最终的拆分阈值

回归树

到目前为止,我们只把决策树作为分类算法来讨论,使用回归树可以将决策树推广为回归算法

比如对于体重的预测,可以通过决策树进行划分,最后求得每一种类的平均值

建立回归树时,如何选择一个划分呢?

在建立回归树时,不是去减少熵,相反的,我们应该去减少权重的方差,这是回归树的信息增益

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《2023跨境电商投诉大数据报告》发布|亚马逊 天猫国际 考拉海购 敦煌网 阿里巴巴

2023年&#xff0c;跨境电商API接口天猫国际、京东国际和抖音全球购以其强大的品牌影响力和市场占有率&#xff0c;稳坐行业前三的位置。同时&#xff0c;各大跨境电商平台消费纠纷问题层出不穷。依据国内知名网络消费纠纷调解平台“电诉宝”&#xff08;315.100EC.CN&#xff…

javaEE--后端环境变量配置

目录 pre 文件准备 最终运行成功结果 后端运行步骤 1.修改setenv文件 2.运行setenv&#xff0c;设置环境变量 3.查看jdk版本 4.修改mysql文件夹下的my文件 前端运行步骤 1.nodejs环境配置 2.查看node和npm版本 3.下载并运行npm 4.注册登录 pre 文件准备 最终运行…

VR转接器:破解虚拟与现实边界的革命性设备

VR转接器&#xff0c;这一革命性的设备&#xff0c;为虚拟现实体验带来了前所未有的自由度。它巧妙地连接了虚拟与现实&#xff0c;使得用户在享受VR眼镜带来的奇幻世界的同时&#xff0c;也能自由地在现实世界中活动。这一设计的诞生&#xff0c;不仅解决了VR眼镜续航的瓶颈问…

GO结构体

1. 结构体 Go语言可以通过自定义的方式形成新的类型&#xff0c;结构体就是这些类型中的一种复合类型&#xff0c;结构体是由零个或多个任意类型的值聚合成的实体&#xff0c;每个值都可以称为结构体的成员。 结构体成员也可以称为“字段”&#xff0c;这些字段有以下特性&am…

STM32 | 零基础 STM32 第一天

零基础 STM32 第一天 一、认知STM32 1、STM32概念 STM32:意法半导体基于ARM公司的Cortex-M内核开发的32位的高性能、低功耗单片机。 ST:意法半导体 M:基于ARM公司的Cortex-M内核的高性能、低功耗单片机 32&#xff1a;32位单片机 2、STM32开发的产品 STM32开发的产品&a…

【论文笔记】Improving Language Understanding by Generative Pre-Training

Improving Language Understanding by Generative Pre-Training 文章目录 Improving Language Understanding by Generative Pre-TrainingAbstract1 Introduction2 Related WorkSemi-supervised learning for NLPUnsupervised pre-trainingAuxiliary training objectives 3 Fra…

Java 网络面试题解析

1. Http 协议的状态码有哪些&#xff1f;含义是什么&#xff1f;【重点】 200&#xff1a;OK&#xff0c;客户端请求成功。 301&#xff1a;Moved Permanently&#xff08;永久移除&#xff09;&#xff0c;请求的URL已移走。Response中应该包含一个Location URL&#xff0c;…

steam++加速问题:出现显示443端口被 vmware-hostd(9860)占用的错误。

目录 前言&#xff1a; 正文&#xff1a; 前言&#xff1a; 使用Steam对GitHub进行加速处理时&#xff0c;建议使用2.8.6版本。 下载地址如下&#xff1a;Release 2.8.6 BeyondDimension/SteamTools GitHub 下载时注意自己的系统位数 正文&#xff1a; 使用GitHub时会使…

NOC2023软件创意编程(学而思赛道)python初中组初赛真题

软件创意编程 一、参赛范围 1.参赛组别:小学低年级组(1-3 年级)、小学高年级组(4-6 年级)、初中组。 2.参赛人数:1 人。 3.指导教师:1 人(可空缺)。 4.每人限参加 1 个赛项。 组别确定:以地方教育行政主管部门(教委、教育厅、教育局) 认定的选手所属学段为准。 二、…

蓝桥杯Java B组历年真题(2013年-2021年)

一、2013年真题 1、世纪末的星期 使用日期类判断就行&#xff0c;这里使用LocalDate&#xff0c;也可以使用Calendar类 答案 2099 使用LocalDate import java.time.LocalDate; import java.time.format.DateTimeFormatter; // 1:无需package // 2: 类名必须Main, 不可修改p…

CentOS7 Hive2.3.8安装

CentOS7 Hive2.3.8 安装 建议从头用我的博客&#xff0c;如果用外教的文件到 一、9)步骤了&#xff0c;就用他的弄完&#xff0c;数据库不一样&#xff0c;在9步骤前还能继续看我的 一、 安装MySQL 0.0&#xff09;查询mariadb,有就去0.1&#xff09;&#xff0c;没有就不管…

python3装饰器

装饰器 它允许你修改函数或类的行为&#xff0c;而不更改其源代码。实质上&#xff0c;装饰器是接受另一个函数作为参数并返回一个包装原始函数的新函数。这样&#xff0c;你可以在不修改原始函数的情况下&#xff0c;添加一些额外的功能或逻辑。 def time_cost(func):"…

美团分布式 ID 框架 Leaf 介绍和使用

一、Leaf 在当今日益数字化的世界里&#xff0c;软件系统的开发已经成为了几乎所有行业的核心。然而&#xff0c;随着应用程序的规模不断扩大&#xff0c;以及对性能和可扩展性的需求不断增加&#xff0c;传统的软件架构和设计模式也在不断地面临挑战。其中一个主要挑战就是如…

学生云服务器_学生云主机_学生云数据库_云+校园特惠套餐

2024年腾讯云学生服务器优惠活动「云校园」&#xff0c;学生服务器优惠价格&#xff1a;轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年&#xff0c;轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年&#xff0c;CVM云服务器2核4G配置842.4元一年&…

自注意力机制(Self-Attention)

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站&#xff08;【http://www.aideeplearning.cn】&#xff09; Transformer模型中最关键部分就是自注意力&#xff08;Self-Attention&#xff09;机制&#xff0c;正如 Transformer 的论文的标题是“…

【Vue3】函数式编程(h 函数)

h 函数的原理就是 createVNode。可以使用 h 函数封装一些小组件。 <template><table border><tr><th>name</th><th>age</th><th>操作</th></tr><tr v-for"item in list" :key"item.age"&…

零拷贝技术深入分析

一、零拷贝 在前面的文章“深浅拷贝、COW及零拷贝”中对零拷贝进行过分析&#xff0c;但没有举例子&#xff0c;也没有深入进行展开分析。本文将结合实际的例程对零拷贝进行更深入的分析和说明。 在传统的IO操作中&#xff0c;以文件通过网络传输为例 &#xff0c;一般会经历以…

K8s控制器

控制器: Deployment: Deployment概述: replicaset:自动创建pod的控制器 Delpoyment控制器: pod的名字需要唯一,在这不写名字,利用标签进行创建 replicas:表示你想要克隆的数量,selector:通过标签.识别哪个pod是我创建出来的.这里的标签和后面元数据里的标签要一致. Cluster…

NCDA设计大赛获奖作品剖析:UI设计如何脱颖而出?

第十二届大赛简介 - 未来设计师全国高校数字艺术设计大赛&#xff08;NCDA&#xff09;开始啦&#xff01;视觉传达设计命题之一: ui 设计&#xff0c;你想知道的都在这里。为了让大家更好的参加这次比赛&#xff0c;本文特别为大家整理了以往NCDA大赛 UI 设计的优秀获奖作品&a…

2024年腾讯云优惠券_代金券_云服务器折扣券免费领取链接

腾讯云优惠代金券领取入口共三个渠道&#xff0c;腾讯云新用户和老用户均可领取8888元代金券&#xff0c;可用于云服务器等产品购买、续费和升级使用&#xff0c;阿腾云atengyun.com整理腾讯云优惠券&#xff08;代金券&#xff09;领取入口、代金券查询、优惠券兑换码使用方法…