机器学习之正则化

根据上一篇博客《统计学习概论》可以知道,正则化的作用是选择经验风险和模型复杂度同时较小的模型。下面从过拟合的角度来理解正则化。

#过拟合问题

例子说明,线性回归问题(房价)

example_of_overfitting

  • 分析:

    1)左边第一幅图,图中获得拟合模型是这样一条直线,但是,实际上这并不是一个很好的模型。这些数据明显表明,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。这种情况称为欠拟合(underfitting),或者叫做高偏差(high bias)。这两种叫法大致相似,都表示没有很好地拟合训练数据。

    2)第二幅图,中间加入一个二次项,也就是说数据使用二次函数去拟合。拟合出曲线的拟合效果很好。

    3)在第三幅图中对于该数据集用一个四次多项式来拟合。因此在这里我们有五个参数θ0到θ4,通过给定的五个训练样本,我们可以得到如右图的拟合曲线。从该曲线来看,一方面,似乎对训练数据做了一个很好的拟合,因为这条曲线通过了所有的训练样本。但是,这实际上是一条很扭曲的曲线,它不停上下波动。事实上它并不是一个预测房价的好模型。把这类情况叫做过拟合(overfitting),也叫高方差(high variance)

  • 结论:

      在拟合过程中,使用一个高阶多项式进行拟合,这个函数能很好的拟合训练集(能拟合几乎所有的训练数据),但这也就面临函数可能太过庞大的问题,变量太多。同时如果缺乏足够的数据集(训练集)去约束这个变量过多的模型,那么就会发生过拟合。

  过度拟合的问题通常发生在变量(特征)过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于 0 或者就为 0。但是,这样的曲线千方百计的去拟合训练数据,这样会导致它无法泛化到新的数据样本中,以至于无法预测新样本价格。在这里,术语"泛化"指的是一个假设模型能够应用到新样本的能力。新样本数据是指没有出现在训练集中的数据。
  • 问题提出:

    一般而言,过多的特征(变量),同时只有非常少的训练数据,会导致过度拟合的问题,为了解决过拟合问题,有以下两个方法:

    • 减少特征的维度

      • 1.人工特征选择

      • 2.模式选择算法)

    • 正则化

      • 1.保留所有的特征,但是会减小特征变量的数量级(参数数值的大小θ(j)

      • 2.这个方法很有效,当很多特征时,每一个特征都对预测y产生影响)

  • 抑制过拟合的具体操作

    过拟合解决方案

    过拟合解决方案2

正则化

代价函数

正则化项

正则线性回归

正则逻辑回归

参考资料:机器学习之正则化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python开发平台Ubuntu

python开发平台Ubuntu APT软件管理和远程登录

a.out、coff、elf三种文件格式

转自:http://blog.chinaunix.net/uid-11469366-id-1747286.html 补充:a.out早期并不是elf格式的,而是unix下另一种可执行格式,新的a.out是 本文讨论了 UNIX/LINUX 平台下三种主要的可执行文件格式:a.out(…

投影矩阵

作者:桂。 时间:2017-10-19 06:02:00 链接:http://www.cnblogs.com/xingshansi/p/7690292.html 前言 最近在交替投影算法中,用到投影矩阵,简单记录。 一、投影矩阵定义 此处以列满秩为例,行满秩可依次类推…

不同维度极值点查找

作者:桂。 时间:2017-10-19 17:00:12 链接:http://www.cnblogs.com/xingshansi/p/7693557.html 前言 主要梳理不同维度信号极值点的查找思路。 一、思想 思想都是一个,通过极值点的定义:数值高于相邻的点&#xff0c…

俯仰角/偏航角的转化

作者:桂。 时间:2017-10-20 10:29:52 链接:http://www.cnblogs.com/xingshansi/p/7698237.html 前言 主要记录坐标系的转化。 一、坐标转化 对于坐标系: 设方位角为φ,俯仰角为theta,仰角β与偏航角α&am…

安装Centos8.1

安装Centos8.1 按回车

Ubuntu 14.04 LTS 下升级 gcc 到 gcc-4.9、gcc-5 版本

转载: http://www.cnblogs.com/BlackStorm/p/5183490.html Ubuntu 14.04 LTS 下升级 gcc 到 gcc-4.9、gcc-5 版本 如果没记错的话,阿里云ECS上的Ubuntu也是LTS版本。 如果还在使用较旧版本的Ubuntu,或者是Ubuntu LTS,那么我们是…

SVM学习——在matlab上安装libsvm库(一)

环境搭建平台: Windows PCMATLAB 软件libsvm库(SVM工具箱)安装步骤 准备工作 安装对应的编译器,在网站上查看当前matlab版本支持的编译器版本。本文使用的matlab 2015a版本(支持编译器详情)。通过查询&…

正则表达式练习笔记

下面的内容是一个 data1.txt 文本内容,里面记录了一些正则表达式的笔记 long long ago there is girl, shes name is little redhat.. long_long_long#long;long:long This is a test txt... my phone number is 18621735531There are a lot of good books,220123 …

逾期后,如何修复个人征信?

个人征信大家都是知道很宝贵,但是有些朋友会在有意无意之间造成逾期,结果给申请贷款、申请信用卡带来了诸多不便。逾期是谁也不想看到的,但是如果逾期已经发生了,我们就无法改变,唯一能做的就是努力去修复,…

空间谱专题16:信号个数估计

作者:桂。 时间:2017-10-24 21:50:16 链接:http://www.cnblogs.com/xingshansi/p/7726082.html 前言 记录阵列信号在DOA估计中,信源个数估计的基本方法。 一、基本估计方法 参考:王永良《空间谱估计》p42: 以MDL为例&#xff1a…

根据verilog代码画电路图

根据verilog代码画电路图 FPGA设计的本质是硬件设计,而且verilog是描述硬件设计的语言(也就是描述电路),一个标准的工程师需要学会建立电路和Verilog对应的关系,学会看到电路图,就能写出相应的Verilog代码…

VS2015编译boost 1.62.0

参考链接: http://blog.chinaunix.net/uid-22301538-id-3158997.html D:\boost_1_62_0>bjam –toolsetmsvc-14.0 –prefixD:/boost_1_62_0/output –without-python –build-typecomplete linkshared threadingmulti install

复数矩阵分解的拆解思路(矩阵求逆/特征值分解)

作者:桂。 时间:2017-10-26 07:11:02 链接:http://www.cnblogs.com/xingshansi/p/7735016.html 前言 主要记录特征值分解的硬件实现思路。 一、实数矩阵转化 在FPGA运算中,对实数运算通常优于对复数运算。假设C为复数矩阵&#…

贷款机构如何审核个人征信?

贷款是要查看征信的, 但是大家知道贷款机构是如何审查借款人的征信吗?下面我们一起来看下。1看征信报告打印时间一般贷款机构要求提供的是最新的征信报告,当然每个机构要的具体期限不一样,有的要求是最近一个月的,有的…

COMS技术

COMS技术 n型MOS(NMOS)三极管的结构如图所示,该图不是按照实际比例绘制的。三极管的衬底是被掺杂后成为p型半导体材料的硅晶片。NMOS衬底的厚度远比其他三极管要厚。在每个三极管上有两个区域,被掺入大量的杂质,成为n型半导体区域。这两个区域分别形成了三极管的源极和漏极…

VS2015 + CUDA 8.0 配置GTX1070的OpenCL 开发环境

一、查看计算机对OpenCL异构计算的支持情况 使用 GPU Caps Viewer 查看计算机对OpenCL的支持情况,目前最新的版本是 gpu-caps-viewer-1-32-0, 下载地址:http://www.geeks3d.com/20161107/gpu-caps-viewer-1-32-0-released/ 从上面两个图可以…

空间谱专题16:间距选取分析

作者:桂。 时间:2017-11-01 23:26:30 链接:http://www.cnblogs.com/xingshansi/p/7769153.html 前言 本文主要分析布阵间距选取依据,个人观点,仅供参考。 一、问题描述 对于空间谱测向(以MUSIC算法为例&a…

征信逾期了,5年后能自动消除吗?

最近有一个朋友去申请贷款,然后被拒了,理由是属于征信黑名单。这个朋友很纳闷,自己最近几年从来没有贷过款,信用卡每个月都是正常在还,没有出现逾期过,为何说征信是黑名单呢?后来一问才知道&…