四、西瓜书——支持向量机

第六章 支持向量机

1.间隔与支持向量

        支持向量机的原理是寻找与支持向量具有最大间隔的划分超平面。支持向量机具有一个重要性质: 训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关.

        首先,超平面的方程为:

        

        点到超平面的距离为:

         

        

        两个异类支持向量到超平面的距离之和为(间隔) 

        

         

       在满足约束条件下最大化间隔:

         

         

        2.对偶问题

        通过拉格朗日对偶定理可以推出原问题的对偶问题等价于:

         

        其中, 

        

        KKT条件为:

        

3.核函数

        在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分.例如在图 6.3 中若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面.幸运的是,如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分.         

        

        但是求解无穷维的内积是困难的,因此,我们引入核函数:

         

         

定理 6.1表明只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用.事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射.换言之,任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”(Reproducing Kernel Hilbert Space,简称 RKHS)的特征空间

        

4.软间隔与正则化

       在前面的问题中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开.然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.

        缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此,要引入“软间隔”(soft margin)的概念。具体来说,前面介绍的支持向量机形式是要求所有样本均满足约束(6.3),即所有样本都必须划分正确,这称为“硬间隔”(hard margin),而软间隔则是允许某些样本不满足约束:

 此时,恰好在最大间隔边界上的点为支持向量。

        当然,在最大化间隔的同时,不满足约束的样本应尽可能少.于是,优化目标可替换为:

        于是,训练级的误差可写成更为一般的形式:

                

5.支持向量回归

           

 

         此时,支持向量必定落在间隔带之外。

6.核方法

                 

         

第七章 贝叶斯分类器

1.贝叶斯决策论

        贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险 R(c|a)最小的类别标记,即        

        

         

于是,最小化分类错误率的贝叶斯最优分类器为

 根据贝叶斯定理:

        其中,P(c)是类“先验”(prior)概率; P(x|c)是本 相对于类记c的类条件概率(class-conditional probability),或称为“似然”(likelihood); P(x)是用于归一化的“证据”(evidence)因子.对给定样本,证据因子 P(x)与类标记无关,因此估计P(c|x)问题就转化为如基于练据D来估计先验P(c) 和似然P(x|c). 

        类先验概率 P(c) 表达了样本空间中各类样本所占的比例,根据大数定律当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计.
        对类条件概率 P(x|c) 来说由于它涉及关于所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。

2.极大似然估计

                

··         

 

3.朴素贝叶斯分类器

        朴素贝叶斯分类器采用了“属性条件独立性假设”,对已知类别,假设所有属性相互独立.换言之,假设每个属性独立地对分类结果发生影响.        

        

        

         朴素贝叶斯分类器的训练过程就是基于训练集 D来估计类先验概率P(c),并为每个属性估计条件概率 P(xi|c) 

        令D表示训练集D中第 c 类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:

       

连续属性可以使用其概率分布函数:

                 

        为了避免连乘式中出现概率为0的情况,使用拉普拉斯修正。

 

4.半朴素贝叶斯分类器    

        半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系.“独依赖估计”是半朴素贝叶
斯分类器最常用的一种策略.顾名思议所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即     

         

        

        

        AODE是一种基于集成学习机制、更为强大的独依赖分类器,与SPODE 通过模型选择确定超父属性不同AODE,尝试将每个属性作为超父来构建 SPODE,然后将那些具有足够训练数据支撑的 SPODE 集成起来作为最终结果,即

     

5.贝叶斯网

        贝叶斯网亦称“信念网”,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布.

         

结构:

        在“同父”结构中给定父结点x1的取值x3与x4条件独立

        在“顺序”结构z中,给定x的值,则y与条件独立

        V型结构(Vstructure)亦称“冲撞”结构,给定子结点x4的取值x1与x2必不独立,若x4的取值完全未知则V型结构下x1与x2是相独立的:

         

        

        

        学习

        常用评分函数通常基于信息论准则,此类准则将学习问题看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型

        需要注意的是,网络越复杂,拟合程度越好,似然越大,而网络越简单,拟合程度越差,似然越小。

推断

        最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,但是,这样的“精确推断”已被证明是 NP 难的[Cooper,1990];换言之当网络结点较多、连接稠密时,难以进行精确推断,此时需借助“近似推断”通过降低精度要求,在有限时间内求得近似解.在现实应用中,贝叶斯网的近似
推常使用吉布斯采样 

6.EM算法

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/723389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单表练习12.0

一个学生表 分别记录姓名,年龄,性别,班级,语文,数学,英语字段 create table student2( id int primary key , name char(20), sex char(10), age int(3), mobile char(20), class char(10), engli…

男子失眠焦虑、胸闷气短发作,多次跑医院,检查结果却显示无异常!

植物神经紊乱指的是人体内部的自主神经系统失去平衡,导致一系列的生理和心理方面的异常状态。人体的自主神经系统分为交感神经系统和副交感神经系统,它们共同调节心血管系统、消化系统、呼吸系统、内分泌系统等器官的功能。当这两个系统的平衡被打破&…

IPSEC---VPN

文章目录 目录 文章目录 一.TCP/IP 协议的缺点 二.IPsec诞生背景 IPsec可提供安全服务 三.IPsec协议簇 IPsec的两种工作模式 传输模式 隧道模式: IPsec的安全协议 AH 协议:鉴别头协议 ESP协议:封装安全载荷协议 AH与ESP对比 AHESP报文&#xff1a…

【Python】Python注册微服务到nacos

Python注册微服务到Nacos 1.Nacos部署 github 的nacos项目的发布页(Releases alibaba/nacos GitHub ),选择所要下载的nacos版本,在nacos下方的assets中选择安装包进行下载。 解压nacos安装包到指定目录。 tar -zxvf nacos-ser…

国产通讯芯片D3232介绍,要用于工控主板、工业控制器、程序烧录下载器、仿真器、新能源充电桩等众多涉及RS232通讯的产品

一、应用领域 D3232芯片主要用于工控主板、工业控制器、程序烧录下载器、仿真器、新能源充电桩等众多涉及RS232通讯的产品。 二、基本特性 D3232芯片由两个线路驱动器、两个线路接收器和双电荷泵电路组成,具有HBM>15kV、CDM>2kV的ESD保护能力,并且…

element-ui plus v2.60 终于修复了 radio checkbox 取值不明确的问题,label value 值

element-ui plus v2.60 终于修复了 radio checkbox 取值不明确的问题,label value 值 昨天想反馈这个关于 label 和 value 的问题的时候,发现新版本已经修正这个问题了。 一、ElementUI 旧版关于 label 和 value 的问题 从之前 element-ui 用过来的&a…

两天学会微服务网关Gateway-Gateway网关限流

锋哥原创的微服务网关Gateway视频教程: Gateway微服务网关视频教程(无废话版)_哔哩哔哩_bilibiliGateway微服务网关视频教程(无废话版)共计17条视频,包括:1_Gateway简介、2_Gateway工作原理、3…

Sublime Text 格式化Json文件 之 Pretty Json

需要使用到 Pretty Json插件。 一、安装方法 sublime 下,按快捷键 Comand control p, 输入install Package,然后回车 等几秒钟,加载启动进程完毕后弹出的页面中输入pretty json, 然后回车 等待几秒钟,可以查看Sublime 最下面的…

HUAWEI 华为交换机 配置 MAC 防漂移 防MAC伪造示例

组网需求 某企业网络中,用户需要访问企业的服务器。如果某些非法用户从其他接口假冒服务器的MAC 地址发送报文,则服务器的 MAC 地址将在其他接口学习到。这样用户发往服务器的报文就会发往非法用户,不仅会导致用户与服务器不能正常通信&…

【粉丝福利】一本书讲透ChatGPT,实现从理论到实践的跨越!大模型技术工程师必读

🌼一、前言 OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景,在多项专业和学术基准测试中表现出的智力水平,不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎&#xf…

在Windows 10和11中打开事件查看器的11种方法,总有一种适合你

Windows事件查看器是一个功能强大的工具,可以记录电脑从启动到关机的所有过程。你可以使用它查看有关应用程序错误、不同系统服务生成的警告的详细信息,以及有关驱动程序和服务状态的信息。这就是为什么当你需要识别或解决计算机或设备上的问题时,Windows 11和Windows 10事件…

【金九银十】,架构师花费近一年时间整理出来的安卓核心知识

面试经历 主要是根据回忆总结的(会有遗漏点)。 1. 腾讯(QQ音乐) 腾讯面试涉及到的范围也很广,甚至问到了C、Kotlin Flutter ,也具有一定挑战性的,以下包括腾讯腾讯安卓客户端三面&#xff0c…

国创证券|降准对股市的影响,利好哪些板块?

降准是指央行下调金融机构存款准备金率,是一种宽松的钱银政策,会添加社会上的流动资金,然后推动股市上涨,对股市来说是一种利好,其间利好以下板块: 1、利好房地产板块 央行降准会进步银行可贷资金&#x…

每日一题-链表的中间结点

🌈个人主页: 会编辑的果子君 💫个人格言:“成为自己未来的主人~” 上面是解题题目: 解题思路:快慢指针法--慢指针一次指向下一个,快指针一次指向下两个 解答过程: /*** Definition for singly-linked…

Linux学习-指针与数组

目录 数组和指针的关系 数组指针: 数组和指针的关系代码 指针数组 指针和二维数组的关系 数组传参 数组和指针的关系 一维数组和指针的关系: int a[5] {1,43,5,3,2,}; 数组的数组名a是指向数组第一个元素a[0]的指针常量; a &a…

JRebel and XRebel 插件在IDEA中的安装、激活和使用

1、JRebel安装 1、打开idea->setting->plugins->Marketplace 2、搜索插件JRebel and XRebel,点击安装,然后重启idea 如果左侧出现JRebel & XRebel代表已安装 3.离线安装JRebel 根据自己安装的idea版本进行下载电影的jrebel https://plugi…

1.Zookeeper理论基础

1.Zookeeper的基本概念 是一个分布式应用协调框架 ,java编写的。客户端 /服务端 的架构模式。CP设计(一致性,分区容错) 它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:服务注册服务、状态同步服务、集群管理、分布…

WordPress建站入门教程:忘记数据库名称、用户名和密码了怎么办?

有时候我们需要进入phpMyAdmin管理一些数据库,但是登录phpMyAdmin时却需要我们输入数据库的用户名和密码,但是我们不记得了应该怎么办呢? 其实,我们只需要进入WordPress网站根目录找到并打开wp-config.php文件,就可以…

Git 进阶 高级用法,重要命令记录

本篇文章用于记录Git高级用法,新手可以看我的另一篇文章:Git基础教学。 Git git fetch 是git pull 的细分步骤,git pull 包含了git fetch git pull origin master 上述命令其实相当于git fetch git merge 在实际使用中,git fetc…

如何使用ArcGIS Pro进行坡度分析

坡度分析是地理信息系统中一种常见的空间分析方法,用于计算地表或地形的坡度,这里为大家介绍一下如何使用ArcGIS Pro进行坡度分析,希望能对你有所帮助。 数据来源 教程所使用的数据是从水经微图中下载的DEM数据,除了DEM数据&…