《机器学习》周志华-CH10(降维与度量学习)

10.1k近邻学习

   k k k近邻(k-Nearest Neighbor,简称kNN),监督学习。

  工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k k k个训练样本,基于这些”邻居“预测。
{ 分类任务:选择”投票法“。 k 个样本中最多的类别为预测结果 回归任务:选择”平均法“。平均值或加权平均值 \begin{cases} 分类任务:选择”投票法“。k个样本中最多的类别为预测结果 & \\ 回归任务: 选择”平均法“。平均值或加权平均值 \\ \end{cases} {分类任务:选择投票法k个样本中最多的类别为预测结果回归任务:选择平均法。平均值或加权平均值

  KNN是“懒惰学习”代表,没有训练。训练开销为零。待收到测试样本再进行处理。

  在训练阶段对样本进行学习的方式,称为“急切学习”

  给定测试样本 x x x,若其最紧邻样本为 z z z,则最近邻分类器出错的概率就是 x x x z z z类别,标记不同的概率,即
在这里插入图片描述

  最近邻分类器虽然简单,但它泛化错误率不超过贝叶斯最优分类器错误率的两倍!

10.2低维嵌入

  在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的困难,称为“维数灾难”。

  缓解维数灾难的一个重要途径是降维,“维数约简”

  “多维缩放”(Multiple Dimensional Scaling,简称MDS)

在这里插入图片描述
d i s t i j 2 = ∣ ∣ z i ∣ ∣ 2 + ∣ ∣ z j ∣ ∣ 2 − 2 z i T z j = b i i + b j j − 2 b i j \begin{equation} \begin{aligned} dist_{ij}^2&=||z_i||^2+||z_j||^2-2z_i^Tz_j \\ &=b_{ii}+b_{jj}-2b_{ij} \end{aligned} \tag{10.3} \end{equation} distij2=∣∣zi2+∣∣zj22ziTzj=bii+bjj2bij(10.3)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  基于线性变换进行降维方法称为线性降维,都符合(10.13)

  不同之处在于对低维子空间性质有不同的要求,对 W W W施加了不同约束

10.3主成分分析

  对正交属性空间中的样本点,如何用一个超平面对所有样本进行表达?

  性质

  1. 最近重构性:样本点到这个超平面的距离都足够近
  2. 最大可分性:样本点在这个超平面的投影尽可能分开

  从最近重构性推导:

在这里插入图片描述

  从最大可分性推导:

  样本点 x i x_i xi在新空间超平面投影是 W T x i W^Tx_i WTxi

  若要使尽可能分开,则使投影后样本点的方差最大化。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.4核化线性降维

  若直接使用线性降维方法对三维空间观察到的样本进行降维,则将丢失原本的低维结构。

  “原本采样的”低维空间称为“本真”低维

  **非线性降维的一种常见方法是基于核技巧对线性降维方法进行“核化”**以主成分分析KPCA为例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.5流形学习

  流形学习(manifold learning)是一类借鉴拓补流形概念的降维。“流形”是在局部与欧氏距离空间同胚的空间。局部具有欧氏距离的性质。

10.5.1等度量映射(Isometric Maping,简称Isomap)

  低维嵌入流形上的测地线距离不能用高维空间的直线距离计算,但能用近似距离来近似

  如何计算测地线距离

  利用流形在局部上与欧氏距离同胚这个性质,计算两点之间测地线距离的问题,就转变为计算近邻连接图上两点之间最短路径问题。

  在近邻连接图上计算两点之间最短路径,著名的Dijkstra算法或者Floyd算法

   I s o m a p Isomap Isomap仅是得到了训练样本在低维空间的坐标,对于新样本,将高维空间坐标作为输入,低维空间坐标作为输出,训练一个回归学习器来对新样本的低维空间坐标进行预测。

  近邻图构建的两种方法:

  1. 指定邻点个数,如欧氏距离最近的 k k k个点为近邻点, k k k近邻图。
  2. 指定距离阈值 ξ \xi ξ,距离小于 ξ \xi ξ的店被认为是近邻点, ξ \xi ξ近邻图。
10.5.2局部线性嵌入

  局部线性嵌入(Locally Liner Embedding,简称LLE)保持样本之间的线性关系。

  假定样本点 x i x_i xi能通过邻域样本 x j x_j xj, x k x_k xk, x l x_l xl的坐标经过线性组会重构:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

10.6度量学习

在这里插入图片描述
在这里插入图片描述

  假定希望提高近邻分类器的性能,将 M M M嵌入到评价指标中,优化该性能指标相应求 M M M

  近邻分类器判别时通常用多数投票法(领域中1票,领域外0票)

  替换为概率投票法,对任意样本 x j x_j xj x i x_i xi分类影响的概率为:
在这里插入图片描述
在这里插入图片描述

  

  

  

  

  

  

  

  

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/55612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL之复合查询与内外连接

目录 一、多表查询 二、自连接 三、子查询 四、合并查询 五、表的内连接和外连接 1、内连接 2、外连接 前面我们讲解的mysql表的查询都是对一张表进行查询,即数据的查询都是在某一时刻对一个表进行操作的。而在实际开发中,我们往往还需要对多个表…

如何使用MATLAB代码生成器生成ADRC跟踪微分器(TD) PLC源代码(SCL)

ADRC线性跟踪微分器TD详细测试 ADRC线性跟踪微分器TD详细测试(Simulink 算法框图+CODESYS ST+博途SCL完整源代码)-CSDN博客文章浏览阅读383次。ADRC线性跟踪微分器(ST+SCL语言)_adrc算法在博途编程中scl语言-CSDN博客文章浏览阅读784次。本文介绍了ADRC线性跟踪微分器的算法和…

Bolt.new:终极自动化编程工具

兄弟们,终极写代码工具来了—— Bolt.new!全方位的编程支持: StackBlitz 推出了 Bolt․new,这是一款结合了 AI 与 WebContainers 技术的强大开发平台,允许用户快速搭建并开发各种类型的全栈应用。 它的主要特点是无需…

Anaconda的安装与环境设置

文章目录 一、Anaconda介绍二、Anaconda环境搭建1. 下载Anaconda(1)官网下载(2)清华大学镜像 2. 安装Anaconda3.配置环境变量4.检验conda是否安装成功5.更改镜像源6.若菜单栏没有conda prompt 三、虚拟环境1.创建、查看、删除虚拟环境2.激活、退出虚拟环境 四、CUDA、Pytorch、…

JS 入门

文章目录 JS 入门一、JS 概述1、JS 特点2、JS 组成3、JS 初体验4、HTML引入JS 二、JS 基础语法1、变量声明2、基本数据类型3、引用数据类型1)数组2)对象3)函数4)null 4、运算符5、条件判断6、循环语句 三、JS 函数0、JS 函数特点1…

上传文件失败,请检查阿里云配置信息:[The specified bucket is not valid.

-- 十一假期结束 -- 去年今日此门中,人面挑花相应红。 -- 人面不知何处去,桃花依旧笑春风。

Pikachu-unsafe upfileupload-getimagesize

什么是getimagesize()? getimagesize()是PHP中用于获取图像的大小和格式的函数。它可以返回一个包含图像的宽度、高度、类型和MIME类型的数组。 由于返回的这个类型可以被伪造,如果用这个函数来获取图片类型,从而判断是否时图片的话&#xff…

虚拟机 VMware 安装 macOS

macOS 界面 MAC OS IOS下载: amacOS Monterey by Techrechard.comwmacOS Monterey by Techrechard.com 下载:Unlocker-v2.0.1-x64 Mac OS X 虚拟机中更改屏幕分辨率 终端输入命令: sudo defaults write /Library/Preferences/com.apple.w…

vim编辑器安装,并修改配置使其默认显示行数

centOS默认是未安装vim编辑器的,而vim编辑器相比vi编辑器更易用一些,如需使用vim编辑器,需要进行安装。 1.需要先配置本地yum源,参见如下链接: 点击查看如何配置本地yum源 2.安装vim编辑器,并修改配置。…

kafka和zookeeper单机部署

安装kafka需要jdk和zookeeper环境,因此先部署单机zk的测试环境。 zookeeper离线安装 下载地址: zookeeper下载地址:Index of /dist/zookeeper 这里下载安装 zookeeper-3.4.6.tar.gz 版本,测试环境单机部署 上传服务器后解压缩 …

Elasticsearch基础_5.ES聚合功能

文章目录 一、数据聚合1.1、桶聚合1.1.1、单维度桶聚合1.1.2、聚合结果排序1.1.3、限定聚合范围 1.2、Metric聚合 二、聚合总结 本文只记录ES聚合基本用法,后续有更复杂的需求可以查看相关书籍,如《Elasticsearch搜索引擎构建入门与实战》 一、数据聚合…

幂,你去哪儿了-《分析模式》漫谈37

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 “Analysis Patterns”的第3章的图3.5,原文的图是: 2004(机械工业出版社)中译本的图是: direct翻译成分子,inv…

Linux聊天集群开发之环境准备

一.windows下远程操作Linux 第一步:在Linux终端下配置openssh,输入netstate -tanp,查看ssh服务是否启动,默认端口22.。 注:如果openssh服务,则需下载。输入命令ps -e|grep ssh, 查看如否配有, ssh-agent …

VirtualBox Ubuntu22.04 NOI linux2.0 Terminal无法打开 终端打不开 两步解决法儿

新安装的虚拟机无法打开Terminal,从应用列表中单击Terminal,左上角任务栏会出现Terminal,并且鼠标转圈,但是过一会左上角Terminal消失,就像一切都没有来过。 解决办法: CTRL ALT F3 进入命令行模式&…

004集—— txt格式坐标写入cad(CAD—C#二次开发入门)

如图所示原始坐标格式,xy按空格分开,将坐标按顺序在cad中画成多段线: 坐标xy分开并按行重新输入txt,效果如下: 代码如下 : using Autodesk.AutoCAD.DatabaseServices; using Autodesk.AutoCAD.Runtime; us…

pytorch导入数据集

1、概念: Dataset:一种数据结构,存储数据及其标签 Dataloader:一种工具,可以将Dataset里的数据分批、打乱、批量加载并进行迭代等 (方便模型训练和验证) Dataset就像一个大书架,存…

trans-cinnamate 4-monooxygenase肉桂酸4-羟化酶C4H的克隆和功能鉴定-文献精读62

Cloning and functional characterization of two cinnamate 4-hydroxylase genes from Pyrus bretschneideri 两种从白梨(Pyrus bretschneideri)中克隆和功能鉴定的肉桂酸4-羟化酶基因 摘要 肉桂酸4-羟化酶(C4H)是植物苯丙素类…

SpringBoot+ElasticSearch7.12.1+Kibana7.12.1简单使用

案例简介 本案例是把日志数据保存到Elasticsearch的索引中,并通过Kibana图形化界面的开发工具给查询出来添加的日志数据,完成从0到1的简单使用 ElasticSearch职责用法简介 ElasticSearch用在哪 ElasticSearch在我这个案例中,不是用来缓解增…

GPU Puzzles讲解(二)

GPU-Puzzles项目是一个很棒的学习cuda编程的项目,可以让你学习到GPU编程和cuda核心并行编程的概念,通过一个个小问题让你理解cuda的编程和调用,创建共享显存空间,实现卷积和矩阵乘法等 https://github.com/srush/GPU-Puzzleshttp…

NVIDIA Hopper 架构深入

在 2022 年 NVIDIA GTC 主题演讲中,NVIDIA 首席执行官黄仁勋介绍了基于全新 NVIDIA Hopper GPU 架构的全新 NVIDIA H100 Tensor Core GPU。 文章目录 前言一、NVIDIA H100 Tensor Core GPU 简介二、NVIDIA H100 GPU 主要功能概述1. 新的流式多处理器 (SM) 具有许多性能和效率…