python 降维 聚类_比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南

作者介绍:Saurabh.jaju2

Saurabh是一名数据科学家和软件工程师,熟练分析各种数据集和开发智能应用程序。他目前正在加州大学伯克利分校攻读信息和数据科学硕士学位,热衷于开发基于数据科学的智能资源管理系统。

介绍

许多数据科学家经常面对的问题之一:假设有一个包含数百个特征(变量)的数据集,且对数据所属的域没有任何了解,需要对该数据集识别其隐藏状态、探索并分析。本文将介绍一种非常强大的方法来解决该问题。

关于PCA

现实中大多数人会使用PCA进行降维和可视化,但为什么不选择比PCA更先进的东西呢?关于PCA的介绍可以阅读该文献。本文讲解比PCA(1933)更有效的算法t-SNE(2008)。

本文内容

1 什么是t-SNE?

2 什么是降维?

3 t-SNE如何在维数降低算法空间中拟合

4 t-SNE算法的细节

5 t-SNE实际上是做什么?

6 用例

7 t-SNE与其他降维算法相比

8 示例实现

R语言

Python语言

数据科学家

机器学习骇客

数据科学爱好者

10 常见错误

1 什么是t-SNE

(t-SNE)t分布随机邻域嵌入是一种用于探索高维数据的非线性降维算法。它将多维数据映射到适合于人类观察的两个或多个维度。

2 什么是降维?

简而言之,降维就是用2维或3维表示多维数据(彼此具有相关性的多个特征数据)的技术,利用降维算法,可以显式地表现数据。

3 t-SNE如何在降维算法空间中拟合

常用的降维算法有:

1 PCA(线性)

2 t-SNE(非参数/非线性)

3 Sammon映射(非线性)

4 Isomap(非线性)

5 LLE(非线性)

6 CCA(非线性)

7 SNE(非线性)

8 MVU(非线性)

9 拉普拉斯特征图(非线性)

只需要研究上述算法中的两种——PCA和t-SNE。

PCA的局限性

PCA是一种线性算法,它不能解释特征之间的复杂多项式关系。而t-SNE是基于在邻域图上随机游走的概率分布来找到数据内的结构。

线性降维算法的一个主要问题是不相似的数据点放置在较低维度表示为相距甚远。但为了在低维度用非线性流形表示高维数据,相似数据点必须表示为非常靠近,这不是线性降维算法所能做的。

4 t-SNE算法的细节

4.1 算法

步骤1:

随机邻接嵌入(SNE)通过将数据点之间的高维欧几里得距离转换为表示相似性的条件概率而开始,数据点xi、xj之间的条件概率pj|i由下式给出:

其中σi是以数据点xi为中心的高斯方差。

步骤2:

对于高维数据点xi和xj的低维对应点yi和yj而言,可以计算类似的条件概率qj|i

SNE试图最小化条件概率的差异。

步骤3:

为了测量条件概率差的和最小值,SNE使用梯度下降法最小化KL距离。而SNE的代价函数关注于映射中数据的局部结构,优化该函数是非常困难的,而t-SNE采用重尾分布,以减轻拥挤问题和SNE的优化问题。

步骤4:

定义困惑度:

其中H(Pi)是香农熵

4.2 时间和空间复杂性

算法计算对应的是条件概率,并试图最小化较高和较低维度的概率差之和,这涉及大量的计算,对系统资源要求高。t-SNE的复杂度随着数据点数量有着时间和空间二次方。

5 t-SNE实际上是做什么?

t-SNE非线性降维算法通过基于具有多个特征的数据点的相似性识别观察到的簇来在数据中找到模式。本质上是一种降维和可视化技术。另外t-SNE的输出可以作为其他分类算法的输入特征。

6用例

t-SNE几乎可用于所有高维数据集,广泛应用于图像处理,自然语言处理,基因组数据和语音处理。实例有:面部表情识别[2]、识别肿瘤亚群[3]、使用wordvec进行文本比较[4]等。

7 t-SNE与其他降维算法相比

基于所实现的精度,将t-SNE与PCA和其他线性降维模型相比,结果表明t-SNE能够提供更好的结果。这是因为算法定义了数据的局部和全局结构之间的软边界。

8示例实现

在MNIST手写数字数据库上实现t-SNE算法。

“Rtsne”包在R中具有t-SNE的实现。“Rtsne”包可以使用在R控制台中键入的以下命令安装在R中:

超参数调整

代码

MNIST数据可从MNIST网站下载,并可转换为具有少量代码的csv文件。

## calling the installed package

train

library(Rtsne)

## Curating the database for analysis with both t‐SNE and PCA

Labels

train$label

## for plotting

colors = rainbow(length(unique(train$label)))

names(colors) = unique(train$label)

## Executing the algorithm on curated data

tsne

exeTimeTsne

0))

## Plotting

plot(tsne$Y, t='n', main="tsne")

text(tsne$Y, labels=train$label, col=colors[train$label])

实现时间

可以看出,与PCA相比,t-SNE在相同样本大小的数据上执行需要相当长的时间。

解释结果

以下图用于探索性分析。输出x和y坐标以及成本可以用作分类算法中的特征。

2 Python语言

t-SNE算法可以从sklearn包中访问。

超参数调整

代码

以下代码来自sklearn网站上的sklearn示例。

代码1

实现时间

## importing the required packages

from time import time

import numpy as np

import matplotlib.pyplot as plt

from matplotlib import offsetbox

from sklearn import (manifold, datasets, decomposition, ensemble,

discriminant_analysis, random_projection)

## Loading and curating the data

digits = datasets.load_digits(n_class=10)

X = digits.data

y = digits.target

n_samples, n_features = X.shape

n_neighbors = 30

## Function to Scale and visualize the embedding vectors

def plot_embedding(X, title=None):

x_min, x_max = np.min(X, 0), np.max(X, 0)

X = (X ‐ x_min) / (x_max ‐ x_min)

plt.figure()

ax = plt.subplot(111)

for i in range(X.shape[0]):

plt.text(X[i, 0], X[i, 1], str(digits.target[i]),

color=plt.cm.Set1(y[i] / 10.),

fontdict={'weight': 'bold', 'size': 9})

if hasattr(offsetbox, 'AnnotationBbox'):

## only print thumbnails with matplotlib > 1.0

shown_images = np.array([[1., 1.]]) # just something big

for i in range(digits.data.shape[0]):

dist = np.sum((X[i] ‐ shown_images) ** 2, 1)

if np.min(dist) < 4e‐3:

## don't show points that are too close

continue

shown_images = np.r_[shown_images, [X[i]]]

imagebox = offsetbox.AnnotationBbox(

offsetbox.OffsetImage(digits.images[i], cmap=plt.cm.gray_r),

X[i])

ax.add_artist(imagebox)

plt.xticks([]), plt.yticks([])

if title is not None:

plt.title(title)

#‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐

## Plot images of the digits

n_img_per_row = 20

img = np.zeros((10 * n_img_per_row, 10 * n_img_per_row))

for i in range(n_img_per_row):

ix = 10 * i + 1

for j in range(n_img_per_row):

iy = 10 * j + 1

img[ix:ix + 8, iy:iy + 8] = X[i * n_img_per_row + j].reshape((8, 8))

plt.imshow(img, cmap=plt.cm.binary)

plt.xticks([])

plt.yticks([])

plt.title('A selection from the 64‐dimensional digits dataset')

## Computing PCA

print("Computing PCA projection")

t0 = time()

X_pca = decomposition.TruncatedSVD(n_components=2).fit_transform(X)

plot_embedding(X_pca,

"Principal Components projection of the digits (time %.2fs)" %

(time() ‐ t0))

## Computing t‐SNE

print("Computing t‐SNE embedding")

tsne = manifold.TSNE(n_components=2, init='pca', random_state=0)

t0 = time()

X_tsne = tsne.fit_transform(X)

plot_embedding(X_tsne,

"t‐SNE embedding of the digits (time %.2fs)" %

(time() ‐ t0))

plt.show()

9 应用方面

9.1数据科学家

对于数据科学家来说,使用t-SNE的主要问题是算法的黑盒类型性质。使用该算法的最佳方法是将其用于探索数据分析。

9.2机器学习骇客

将数据集缩减为2或3维,并使用非线性堆栈器将其堆叠。可以使用XGboost提高t-SNE向量以获得更好的结果。

9.3数据科学爱好者

对于开始使用数据科学的数据科学爱好者来说,这种算法在研究和性能增强方面提供了最好的机会。针对各种NLP问题和图像处理应用方面实施t-SNE的研究是一个尚未开发的领域。

10常见错误

以下是在解释t-SNE的结果时要避免的几个常见错误:

1 为了使算法正确执行,困惑度应小于点的数量。一般设置为5-50。

2 具有相同超参数的不同运行可能产生不同的结果。

3 任何t-SNE图中的簇大小不得用于标准偏差,色散或任何其他类似的评估。

4 簇之间的距离可以改变。一个茫然性不能优化所有簇的距离。

5 可以在随机噪声中找到模式。

6 不同的困惑水平可以观察到不同的簇形状。

7 不能基于单个t-SNE图进行分析拓扑,在进行任何评估之前必须观察多个图。

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《Comprehensive Guide on t-SNE algorithm with implementation in R & Python》,作者:Saurabh,译者:海棠

文章为简译,更为详细的内容,请查看原文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/504252.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode笔记】406. 根据身高重建队列(Java、偏数学)

文章目录题目描述思路 && 代码二刷题目描述 老阅读题了 &#xff0c;第一遍看题的时候一脸懵逼但其实代码就6行&#xff08;嘿嘿&#xff09; 思路 && 代码 先按照身高降序排&#xff0c;再按照人数升序排&#xff08;套路题&#xff09; class Solution…

ssd内部是多个flash一起操作_一键自毁军工级SSD固态硬盘的技术亮点

通过短路方式实现&#xff0c;烧毁时可见明火及冒烟&#xff0c;5秒(时间可调整)防误触发功能&#xff0c;每2秒烧毁一片闪存芯片&#xff0c;独特的反馈电路实时反馈烧毁状态&#xff0c;确保所有闪存全部被烧毁。烧毁后电子盘彻底报废&#xff0c;无法通过任何手段恢复数据。…

【LeetCode笔记】309. 最佳买卖股票时机含冷冻期(Java、动态规划)

文章目录题目描述思路 && 代码二刷题目描述 股票系列&#xff01;这次加入了冷冻期要素&#xff0c;需要考虑更多的状态 思路 && 代码 每天&#xff0c;都有三个状态&#xff1a;开一个 dp int[n][3] 二维数组主要思路…就是理解几种状态&#xff0c;以及…

sun 些命令可以将服务器设置至ok模式_Python 高手之路:从零开始打造一个Web服务器...

文 | Ruslan Spivak 译 | EarlGrey 推荐 | 编程派公众号(ID&#xff1a;codingpy)有一天&#xff0c;一位女士散步时经过一个工地&#xff0c;看见有三个工人在干活。她问第一个人&#xff0c;“你在做什么&#xff1f;”第一个人有点不高兴&#xff0c;吼道“难道你看不出来我…

css 查看更多_在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程(上篇)...

/前言/今天小编给大家介绍Scrapy中另外一种选择器&#xff0c;即大家经常听说的CSS选择器。/CSS基础/CSS选择器和Xpath选择器的功能是一致的&#xff0c;都是帮助我们去定位网页结构中的某一个具体的元素&#xff0c;但是在语法表达上有区别。Xpath选择器明明已经可以帮助我们提…

【LeetCode笔记】85. 最大矩形(Java、单调栈)

文章目录题目描述思路 && 代码二刷题目描述 其实是84. 柱状图中最大的矩形的兄弟题目&#xff0c;理解成多个84题&#xff0c;对结果取max即可。 思路 && 代码 一行抽象出一个【柱状图】&#xff0c;分别套到84题的函数里即可时空复杂度&#xff1a;O(n2n…

python常用字符串处理函数_Python第10课:常用的字符串处理函数

Python第10课&#xff1a;常用的字符串处理函数时间 2019-01-17上午10&#xff1a;00主讲 刘培富地点 四楼电教室1.字符的ascii码及其逆运算ord("x") 求ascii码chr(x) 还原字符例如&#xff0c;chr(10)表示回车2.求长度 len("xxx")3.替换 "abcd"…

c4d启动无反应_浙江无填料喷雾式冷却塔

浙江无填料喷雾式冷却塔大容量静压储能设备广泛运用在厂区全热力、城市交通和道路通行中&#xff0c;全循环泵吸式&#xff1a;由高效的系统循环和分区启动两个关键部件组成。其进、出口均采用橡胶隔墙为隔离设施&#xff1b;提供一个保证阀体抗剪力的安全及密封的良好环境&…

【LeetCode笔记】312. 戳气球(Java、动态规划)

文章目录题目描述思路 && 代码二刷题目描述 一眼动态规划&#xff0c;但思路确实不好想面试被问过&#xff0c;直接人没了 思路 && 代码 核心思路&#xff1a;关心【最后一个被爆的气球】&#xff0c;自底向上进行动态规划 class Solution {// 思路&…

python怎么绘制渐变图_用Python画colorbar渐变图+修改刻度大小+修改渐变颜色

Draw Gradient Color Map using pythongithub源码地址&#xff1a;欢迎关注我&#xff01;pratical_skills_toolsDraw Gradient Color MapDependenciespandasmatplotlibnumpyseabornYou can configure it using pip install XXX in terminal.Resultsfigure1:figure2:Using and …

selinux= 为 disabled_安德里茨为巴西KLabin Puma II 项目提供气化炉和生物质处理线

ANDRITZ to supply gasification plant and biomass handling line to Klabin’s Puma II project in Brazil.国际技术集团公司安德里茨收到KLabin的订单&#xff0c;为其位于巴西的Ortigueira浆厂提供一台完整的生物质气化炉和一条新的生物质处理线。International technology…

【LeetCode笔记】301. 删除无效的括号(Java、DFS、字符串)

文章目录题目描述思路 && 代码二刷题目描述 【所有可能结果】-> 【暴力DFS】 思路 && 代码 代码比较长&#xff0c;但是总体思路很清晰。剪枝&#xff1a;舍弃左括号、舍弃右括号两种情况&#xff08;见注释&#xff09;分情况&#xff1a;当前字符有【左…

python动态页面元素爬取_爬取动态网页python+Web kit

上一篇文章爬取动态网页pythonseleniumwebdriver介绍了爬取动态网站的一种模拟浏览器的方法&#xff0c;该方法的优劣也很明显优&#xff1a;可以模拟任何人的操作&#xff0c;输入账号密码&#xff0c;点击登录等等操作劣&#xff1a;1.每次执行都要打开桌面上的Chrome浏览器(…

css3宽度变大动画_动画演示流量计的工作原理

​流量计(Flowmeter)是工业生产的眼睛&#xff0c;与国民经济、国防建设、科学研究有着密切的关系&#xff0c;在国民经济中占据重要地位与作用&#xff0c;可用于气体、液体、蒸汽等介质流量的测量。为了更好的展示流量计测量原理&#xff0c;小编采用动画演示的方法来给大家介…

python导出csv有引号_python – csv中的双引号元素不能用pandas读取

我有一个输入文件,其中每个值都存储为一个字符串.它位于一个csv文件中,每个条目都在双引号内.示例文件&#xff1a;"column1","column2", "column3", "column4", "column5", "column6""AM", "07&q…

cfiledialog 保存 扩展名_儿童美术:油画棒 插画一组超萌的大饼脸小孩 保存了跟小朋友一起画吧...

儿童美术&#xff1a;油画棒 插画一组超萌的大饼脸小孩 保存了跟小朋友一起画吧今天继续带来Hannah Sun的“大饼脸”系列。画者使用的作画工具为油画棒&#xff0c;因其效果厚重的特点&#xff0c;与人物的笨拙特征相得益彰&#xff0c;从而让人过目不忘。01020304050607这些作…

【LeetCode笔记】253. 会议室 II(Java、偏数学)

文章目录题目描述思路 && 代码计划里 hot 100 剑指Offer 的题目中唯一一道会员题&#xff0c;同时也是最后一道没写的题&#xff0c;刚好今天 leetcode 发了一天会员可以写上…简直命运石之门的选择&#xff0c;感动&#xff01; 题目描述 转化成上下车问题&#xff…

先学python还是ros_ROS入门学习

ROS学习笔记ROS主要包含包括功能包、节点、话题、消息类型和服务;ROS功能包/软件包(Packages)ROS软件包是一组用于实现特定功能的相关文件的集合&#xff0c;包括可执行文件和其他支持文件。所有的 ROS 软件都是一个软件包或其他软件包的一部分。每个程序包由一个清单文件(文件…

【学习笔记】第二章——管程(解决生产者消费者问题、封装、Java 体现)

填坑系列&#xff01;立个这几天补完的 Flag 因为这个视频的笔记&#xff0c;很多人都已经写得很好了&#xff0c;所以接下来的博客&#xff0c;只会记录一些 【常考】【和 Java 相关】【感觉很有必要记录】的内容 文章目录一. 概念二. 用于解决生产者、消费者问题Java 里的管程…

手机浏览器网址_打开URL(在其他应用中访问网址)app下载-打开URL(在其他应用中访问网址)v2.6安卓版下载...

打开URL让你能够在其它的软件当中打开你所需要的页面&#xff0c;下面就由微侠网小编给您介绍这款软件,相对来说就是在你手机当中的任何一个软件当中加入内置的浏览器&#xff0c;让你将各种网址在你所需要的地点当中打开&#xff0c;这对于用户能够能够起到一定的帮助的作用&a…