【理解机器学习算法】之Nearest Shrunken Centroid(纯Python)

从头开始实现最近缩小质心(NSC)分类器涉及理解它如何通过将质心缩小到所有类的总质心方向来修改基本的最近质心方法,有效地执行特征选择。这种方法特别是在微阵列预测分析(PAM)中的应用而闻名。这里,我们将概述算法的简化版本并提供一个基本的Python实现。

最近缩小质心算法的基本步骤

1. **计算质心**:计算训练数据中每个类的质心。
2. **计算总质心**:使用所有训练数据计算总质心,不论类别。
3. **缩小质心**:将每个类的质心调整到总质心方向,有效减少不太有信息量的特征的影响。缩小的程度由阈值参数 \( \delta \) 控制。
4. **分类**:对于一个新样本,计算其到每个缩小质心的距离并分配最近质心的类别。

Python实现

这个实现关注于步骤1、3和4。步骤2(计算总质心)隐含在缩小过程中。我们将假设使用简单的欧几里得距离进行分类和基本的缩小函数。注意,实际的PAM算法涉及更复杂的缩小计算,包括标准差和软阈值。

import numpy as npclass NearestShrunkenCentroid:def __init__(self, shrink_threshold):self.shrink_threshold = shrink_thresholdself.centroids = Noneself.labels = Nonedef fit(self, X, y):"""Fit the model to the data.X is a 2D numpy array of features.y is a 1D numpy array of labels."""self.labels = np.unique(y)centroids = [X[y == label].mean(axis=0) for label in self.labels]overall_centroid = X.mean(axis=0)# Shrink the centroidsself.centroids = np.array([self._shrink(centroid, overall_centroid) for centroid in centroids])def _shrink(self, centroid, overall_centroid):"""Apply shrinkage to the centroid."""diff = centroid - overall_centroidreturn overall_centroid + np.sign(diff) * np.maximum(np.abs(diff) - self.shrink_threshold, 0)def predict(self, X):"""Predict the class labels for the given data.X is a 2D numpy array of features."""distances = np.sqrt(((X[:, np.newaxis, :] - self.centroids) ** 2).sum(axis=2))nearest_centroids = distances.argmin(axis=1)return np.array([self.labels[index] for index in nearest_centroids])# Example usage
if __name__ == "__main__":# Example data: 4 samples with 2 features eachX_train = np.array([[1, 2],[2, 1],[3, 3],[6, 5]])y_train = np.array([0, 0, 1, 1])  # Class labels# New samples to classifyX_test = np.array([[2, 2],[5, 4]])# Create and train the classifierclassifier = NearestShrunkenCentroid(shrink_threshold=0.5)classifier.fit(X_train, y_train)# Predict and print the class of the new samplespredictions = classifier.predict(X_test)print("Predicted classes:", predictions)

在这个实现中:
- `fit` 方法计算每个类和总质心的质心。然后根据指定的阈值应用缩小。
- `_shrink` 方法通过减少质心中每个特征的大小朝向总质心,根据阈值应用实际的缩小。
- `predict` 方法基于最近的缩小质心对新样本进行分类。

这是最近缩小质心分类器的简化版本。在应用程序中使用的实际实现,如基因表达分析,可能涉及额外的步骤以更有效地处理数据的高维度和稀疏性。

NSC(Nearest Shrunken Centroid) vs NC(Nearest Centroid)

关于NC请参看:【理解机器学习算法】之Nearest Centroid(纯Python)-CSDN博客

最近缩小质心(NSC)与最近质心(NC)分类器都是用于分类任务的简单直观方法,但它们在处理特征空间和分类过程方面有所不同。理解这些差异对于选择适合给定数据集或问题的方法至关重要。以下是两者的比较:

最近质心(NC)

基本原理:最近质心分类器通过计算特征空间中每个类的所有样本的质心(平均值)来工作。然后,根据距离度量(通常是欧几里得距离),将新样本分类到最近质心的类。
  
优点:
  - 简单易懂和实现。
  - 对类的分布没有假设。
  - 在小到中等数据集上效率高。

缺点:
  - 在类分布重叠显著的数据集上表现可能较差。
  - 对无关特征和异常值敏感,因为所有特征对质心计算贡献相等。
  - 由于“维度的诅咒”,在高维数据上不理想。

最近缩小质心(NSC)

基本原理:最近缩小质心是最近质心的扩展,涉及一个额外的“缩小”质心到数据集的总体平均值的步骤。这种缩小有效地减少了不太有信息量的特征的影响,并可以执行隐式特征选择。

优点:
  - 减少了噪声或无关特征的影响,可能提高分类准确性。
  - 执行隐式特征选择,这在高维空间(如基因表达数据)中可能是有益的。
  - 比基本的最近质心分类器更有效地处理重叠的类分布。

缺点:
  - 由于额外的缩小步骤,比最近质心更复杂。
  - 缩小参数(delta)的选择至关重要,可能会影响性能。
  - 在没有进一步的降维技术的情况下,可能仍然难以处理非常高维的数据。

关键差异

特征选择:NSC通过缩小不太有信息量的特征隐式进行特征选择,而NC平等对待所有特征。
鲁棒性:与NC相比,NSC通常对噪声和无关特征更为鲁棒。
复杂性:由于缩小步骤和需要选择适当的缩小参数,NSC更为复杂。
适用性:对于较简单或低维的数据集,可能更倾向于使用NC作为基线模型。相比之下,NSC可能更适合于具有许多特征的数据集,特别是当许多特征可能是无关或噪声时。

在最近缩小质心和最近质心分类器之间的选择取决于您的数据集和手头问题的具体特征。NSC在处理高维数据和减少不太有信息量的特征的影响方面提供了优势,使其在生物信息学等领域特别有用。然而,对于更简单或低维的数据集,直接的最近质心分类器可能就足够了,并且更具计算效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

13. Nginx进阶-平滑升级

简介 注意点 当前服务器不关机;用户可以正常访问;由低版本升为高版本;只支持编译安装的nginx; 升级的原理 在不停掉老进程的情况下,启动新进程。老进程负责处理仍然没有处理完成的请求,但不接受新请求。…

docker 安装 Jenkins

一、安装 jenkins 中文文档: https://www.jenkins.io/zh/doc/book/installing/#docker jenkins 提供了详细的安装方式和步骤,这里咱们使用 docker 进行安装 根据文档上的命令,自己修改如下: docker run \ -u root \ --name jenki…

嵊州吃喝玩乐篇

1. 豆腐馒头 胖大姐豆腐馒头(推荐) 地址: 嵊州市越秀路96-98号 高德地图搜 “胖大姐黄泽豆腐馒头” 黄泽豆腐馒头 地址:嵊州市越秀路111号 高德地图搜 “嵊州市玉英豆腐馒头店” 2. 烧烤 老张烧烤(推荐) 地址&a…

【IDEA】2023版IDEA安装破解教程

2023版IDEA安装破解教程 第一步:IDEA的卸载 这里以Windows11系统为例,首先我们打开控制面板,点击程序,找到自己的IDEA,双击卸载。(或者可以直接找到idea所在文件位置,直接delete文件夹&#x…

vue实现xml,sql,JSON自动格式化高亮

实现xml&#xff0c;json&#xff0c;sql代码组件格式化高亮&#xff1a; 需要下载的依赖&#xff1a; <template><div class"box"><div class"top" v-if"flag"><span class"text">Theme:</span><…

Vue2:路由守卫实现权限管理之全局前置路由守卫

一、情景说明 我们访问任何一个互联网系统&#xff0c;如淘宝、CSDN等&#xff0c;都会遇到按钮权限的情况。 那么&#xff0c;如何在Vue项目中实现按钮权限控制了&#xff1f; 这里就用到了路由守卫技术 它可以类比于SpringBoot项目中的拦截器。 在拦截器里做的权限控制。 …

惠普 DsekJet GT 5810/5820常见问题及解决方法

1、HP DeskJet GT 5810/5820机器的屏幕出现“P”时&#xff0c;该如何操作&#xff1f; 当屏幕出现“P”时&#xff0c;放入A4纸&#xff0c;按住“进纸键”3秒即可&#xff0c;打印机会打印出一张校准页。 2、HP DeskJet GT 5810/5820机器的屏幕出现“A”时&#xff0c;该如何…

【开源】JAVA+Vue.js实现食品生产管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 加工厂管理模块2.2 客户管理模块2.3 食品管理模块2.4 生产销售订单管理模块2.5 系统管理模块2.6 其他管理模块 三、系统展示四、核心代码4.1 查询食品4.2 查询加工厂4.3 新增生产订单4.4 新增销售订单4.5 查询客户 五、…

Redis常见的15个【坑】,避坑指南

一、常见命令 1.1 过期时间意外丢失 原因&#xff1a; SET命令如果不设置过期时间&#xff0c;那么Redis会自动【擦除】这个key的过期时间 1.2 DEL命令阻塞redis key是String类型时&#xff0c;DEL时间复杂度是O(1)key是List/Hash/Set/ZSet类型&#xff0c;DEL时间复杂度是…

开发知识点-前端-layUI

layui layertabletable render <script type"text/html" id"buttonTpl">{{# if(d.check true){ }}<button class"layui-btn layui-btn-xs">已审核</button>{{# } else { }}<button class"layui-btn layui-btn-prim…

#include “stdafx.h“代码的位置,导致编译通不过

1.先上代码: #include <iostream> //std::cout #include <iterator> //std::distance #include <list> //std::list using namespace std;#include "stdafx.h" int _tmain(int argc, _TCHAR* argv[]) { list<int> mylist; …

神经网络算法详解

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 引言 神经网络&#xff0c;作为人工智能和机器学习领域的核心技术之一&#xff0c;具有极其重要的意义。它们通过模拟人类大脑的工作机制&#…

【鸿蒙 HarmonyOS 4.0】弹性布局(Flex)

一、介绍 弹性布局&#xff08;Flex&#xff09;提供更加有效的方式对容器中的子元素进行排列、对齐和分配剩余空间。容器默认存在主轴与交叉轴&#xff0c;子元素默认沿主轴排列&#xff0c;子元素在主轴方向的尺寸称为主轴尺寸&#xff0c;在交叉轴方向的尺寸称为交叉轴尺寸…

高效学习编程语言的策略与实践

目录 写在开头1 确定学习目标1.1 明确学习动机1.2 设定短期和长期目标1.3 选择合适的编程语言1.4 结合实际情况调整目标 2 基础知识储备2.1 掌握核心语法2.2 理解编程范式和思维方式2.3 学习基本的数据结构和算法 3 制定学习计划3.1 确定学习时间和频率3.2 选择合适的学习资源3…

(Linux学习七)进程介绍

一、进程 进程生命周期&#xff1a;由系统程序。form出来的子程序&#xff0c;具备一定的父的资源&#xff08;权利&#xff0c;内存空间&#xff0c;PID&#xff09;直到运行完毕&#xff0c;退出系统 查看进程 ps aux 查看所有进程参数&#xff1a;aux ps a 显示现行…

详细分析Linux内存知识并释放内存

目录 前言1. 基本知识1.1 free1.2 cat /proc/meminfo1.3 slabtop 2. 清空内存 前言 本篇文章主要分析内存 如果是磁盘空间&#xff0c;推荐阅读&#xff1a;服务器出现根目录磁盘满了解决方法 1. 基本知识 在Linux系统中&#xff0c;查看内存的基本知识包括以下几个方面&…

蓄力绽放,2024上海帽子围巾手套展FAE倒计时20天

蓄力绽放&#xff0c;2024上海帽子围巾手套展FAE倒计时20天 刚刚过去的2023年&#xff0c;在面对复杂严峻的外部环境下&#xff0c;我国帽子围巾手套及服饰配饰行业经受住了前所未有的严峻考验。步入2024后&#xff0c;随着国内消费需求的逐步回暖和改善&#xff0c;及深入开发…

测试一下测试u一下3月5日

目录 前言 1. 环境准备 2. 在EB tresos上配置MCAL 步骤1&#xff1a;下载软件 步骤2&#xff1a;安装EB Tresos 23 步骤3&#xff1a;安装MCAL 3. 新建EB工程 4. 导出Arxml文件 前言 前面已经讲解了MCAL的作用。按照博主的理解&#xff0c;配置autosar工程肯定是从驱动…

Feign的性能优化

Feign的性能优化 Feign底层的客户端实现: URLConnection&#xff1a;默认实现&#xff0c;不支持连接池. Apache HttpClient&#xff1a;支持连接池 OKHttp&#xff1a;支持连接池 因此优化Feign的性能主要包括: 使用连接池代替默认的URLConnection 日志级别&#xff0c;…

让计算机保持记忆——变量和常量

程序中用于指定数值保存位置的方法&#xff0c;分为变量和常量。 在数学方程式中&#xff0c;类似x和y这类用于指代要求取得值的符号称为变量。顾名思义&#xff0c;这个值会发生变化。此外&#xff0c;将程序执行过程中会发生变化的各种数据保存在内存时也会使用变量。 如果需…