4)机器学习基石笔记 Lecture4:Feasibility of Learning

目录

1)Learning is Impossible

2)Probability to the Rescue

3)Connection to Learning

4)Connection to Real Learning


上节课我们主要介绍了机器学习问题的类型,主要是二元分类和回归问题。本节课,我们将学习机器学习的可行性,讨论我们研究的问题是否可以使用机器学习来解决。


注:本节课内容有点稍稍难理解。

1)Learning is Impossible

首先,我们看下面这样一个游戏。下面六6个九方格,根据这6个样本我们来推断出右边的九方格的标签是(-1)还是(+1)?可以看出,根据不同的特征进行分类,得到的结果完全不同。所有的分类可以说是合理的,也可以说是不合理的。

再来看一个例子,下图中输入特征是二进制形式。训练样本有5个,那么根据已有的样本输出,假设有8个hypothesis。这8个hypothesis对5个训练样本的分类效果完全正确,但是在另外3个数据上,表现有好有坏。

这个例子告诉我们,我们似乎不能在D以外的数据中准确预测目标。这就告诉我们没有任何一个算法可以在任何领域总是产生最准确的学习器。我们平时听到一个算法“很好”,也只是针对具体问题的具体应用。机器学习没有放之四海皆有效的算法。


2)Probability to the Rescue

从上一节得出结论:在训练集D以外的数据上,机器学习是很难做到正确预测和分类的。但还是有一些工具能够帮助我们做出合理的推论。

看下面一个例子,一个罐子中装满了橙色和绿色的小球。我们能否推断出橙色球的比例u?统计学的做法是这样的:随机取出N个样本,计算N各样本中橙色球的比例v,就估计橙色球的比例为v。


3)Connection to Learning

我们把上节的内容和机器学习联系起来。

  • 机器学习的hypothesis就是我们要求得橙色球概率。
  • 橙色球表示h(x)和f不相等;
  • 绿色求表示h(x)和f相等。
  • 罐子里的玻璃球就是我们的样本空间X,
  • 从罐子中取出N个球相当于训练样本D,样本都是独立同分布的。

我们引入两个值E_{in}(h)E_{out}(h)。分别表示样本中,h(x)与y不相等的概率和实际样本中不相等的概率。


4)Connection to Real Learning

假设我们有多个hypothesis。对不同的数据集,表现有好有坏。我们认为对应的数据集是BadData。我们规定对于所有的hypothesis数据集都是好的,数据集D才是好的。

如果hypothesis的个数M是有限的,N足够大,那么通过演算法A任意选择一个g。都有E_{in}(h)\approx E_{out}(h)

下图是我们的学习流程图。

本节课我们学到了:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/439971.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java注解全面解析

1.基本语法 注解定义看起来很像接口的定义。事实上,与其他任何接口一样,注解也将会编译成class文件。 Target(ElementType.Method)Retention(RetentionPolicy.RUNTIME)public interface Test {} 除了符号以外,Test的定义很像一个空的接口。…

ubuntu18.04下安装grafana6和简单使用

ubuntu18.04下安装grafana6 环境 ubuntu18.04 下载 sudo apt-get install -y adduser libfontconfig1 # 使用wget 下载会很慢 # 推荐百度网盘:链接:https://pan.baidu.com/s/1y2I4LwuslB5kHAZwV8RNxw 提取码:o19t # 或者csdn:[gr…

【POJ - 1364】King(差分约束判无解)

题干: Once, in one kingdom, there was a queen and that queen was expecting a baby. The queen prayed: If my child was a son and if only he was a sound king. After nine months her child was born, and indeed, she gave birth to a nice son. Unfortu…

VMware虚拟机下安装Ubuntu16.04镜像完整教程

目录 1)安装前准备 2)安装Ubuntu 16.04镜像 3)One More Thing 1)安装前准备 PC电脑操作系统是WIN7,已正确安装虚拟机VMware 12。 2)安装Ubuntu 16.04镜像 下载Ubuntu镜像文件,下载链接为…

JAVA 注解的基本原理

以前,『XML』是各大框架的青睐者,它以松耦合的方式完成了框架中几乎所有的配置,但是随着项目越来越庞大,『XML』的内容也越来越复杂,维护成本变高。 于是就有人提出来一种标记式高耦合的配置方式,『注解』…

查看ubuntu系统的版本信息

目录 1)查看linux内核、gcc版本、ubuntu版本 2)显示linux的内核版本和系统是多少位 1)查看linux内核、gcc版本、ubuntu版本 显示如下 Linux version 4.15.0-29-generic (builddlcy01-amd64-024) linux内核版本号 gcc version 5.4…

数字证书原理

基础知识 1. 公钥密码体制 公钥密码体制分为三个部分,公钥、私钥、加密解密算法,它的加密解密过程如下: 加密:通过加密算法和公钥对明文进行加密,得到密文。解密:通过解密算法和私钥对密文进行解密&…

【POJ - 1087】A Plug for UNIX(建图,网络流最大流)

题干: You are in charge of setting up the press room for the inaugural meeting of the United Nations Internet eXecutive (UNIX), which has an international mandate to make the free flow of information and ideas on the Internet as cumbersome and …

框架基础——全面解析Java注解

阅读目录 一、概念二、Java中的常见注解三、注解的分类四、自定义注解五、注解的项目实战六、注解总结 为什么学习注解? 学习注解有什么好处? 学完能做什么? 答:1. 能够读懂别人写的代码,特别是框架相关的代码&…

CS231n Convolutional Neural Networks for Visual Recognition------Scipy and MatplotlibTutorial

源链接为:http://cs231n.github.io/python-numpy-tutorial/。 这篇指导书是由Justin Johnson编写的。 在这门课程中我们将使用Python语言完成所有变成任务!Python本身就是一种很棒的通用编程语言,但是在一些流行的库帮助下(numpy&…

自签名CA认证

自签名CA认证 用openssl命令生成自己的根证书,让用户安装信任它,之后所有用这个根证书签名的证书,就可以被信任。 生成根证书 创建文件并配置环境mkdir /root/ca cd /root/ca mkdir certs crl newcerts private chmod 700 private touch i…

注解由谁读取并解析的?

问题: 注解由谁读取并解析的?描述: java web 开发,使用ssh框架。在dao层,定义的类的头上有Component("GzDAO")注解,在service层, 定义的类的头上有Service(value "GzService")&…

Python之Numpy入门实战教程(1):基础篇

Numpy、Pandas、Matplotlib是Python的三个重要科学计算库,今天整理了Numpy的入门实战教程。NumPy是使用Python进行科学计算的基础库。 NumPy以强大的N维数组对象为中心,它还包含有用的线性代数,傅里叶变换和随机数函数。 强烈建议大家将本文中…

Go初识与问题

变量&常量 变量 命名 由字母、数字、下划线组成,首个字符不能是数字关键字、保留字不能作为变量名变量名字区分大小写驼峰命名声明 1. var : 全局变量var 变量名称 类型var 变量名称1,变量名称2 类型 (同一种类型)var (变量名称1 类型1变量名称2 类型…

【HDU - 4597】Play Game(博弈dp)

题干: Alice and Bob are playing a game. There are two piles of cards. There are N cards in each pile, and each card has a score. They take turns to pick up the top or bottom card from either pile, and the score of the card will be added to his …

1.3)深度学习笔记------浅层神经网络

目录 1)Neural Network Overview 2)Neural Network Representation 3)Computing a Neural Network’s Output(重点) 4)Vectorizing across multiple examples 5)Activation functions 6&a…

git 实战

配置ssh git config --global user.name "用户名" git config --global user.email "邮箱"ssh-keygen -t rsa -C "邮箱"需要进行确认:1. 确认秘钥的保存路径(不需要改直接回车)2. 如果上一步置顶的保存路径下已经有秘钥文件&…

SpringMVC 的执行流程

SpringMVC 的执行流程 1)用户向服务器发送请求,请求被 Spring 前端控制 Servelt DispatcherServlet捕获; 2)DispatcherServlet 对请求 URL 进行解析,得到请求资源标识符(URI)。然后根据该 URI&…

【POJ - 2987】Firing(最大权闭合图,网络流最小割,输出方案最小,放大权值法tricks)

题干: You’ve finally got mad at “the world’s most stupid” employees of yours and decided to do some firings. You’re now simply too mad to give response to questions like “Don’t you think it is an even more stupid decision to have signed …

kafka初识

kafka中文文档 本文环境:ubuntu:18.04 kafka安装、配置与基本使用(单节点) 安装kafka 下载 0.10.0.1版本并解压缩 > tar -xzf kafka_2.11-0.10.0.1.tgz > cd kafka_2.11-0.10.0.1.tgzkafka简单配置 > vi config/server.properties主要注意三个地方&a…