sklearn 笔记 BallTree/KD Tree

由NearestNeighbors类包装

1 主要使用方法

sklearn.neighbors.BallTree(X, leaf_size=40, metric='minkowski', **kwargs)
X数据集中的点数
leaf_size改变 leaf_size 不会影响查询的结果,但可以显著影响查询的速度和构建树所需的内存
metric用于距离计算的度量。默认为 "minkowski"

2 主要方法

2.1 get_arrays

import numpy as np
from sklearn.neighbors import BallTree
X = np.random.random((10, 3))
tree = BallTree(X)                
tree.get_arrays()'''
(array([[0.90651098, 0.68471698, 0.6299996 ],[0.82751465, 0.31739009, 0.61572299],[0.22778906, 0.63614041, 0.73672184],[0.64655758, 0.9729849 , 0.68232389],[0.94992886, 0.72604933, 0.45649069],[0.34932115, 0.95985124, 0.41451989],[0.45131894, 0.21650206, 0.82466273],[0.87047096, 0.48403116, 0.58119046],[0.94468825, 0.14985636, 0.12132986],[0.62717326, 0.12924198, 0.23928098]]),array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64),array([(0, 10, 1, 0.61638879)],dtype=[('idx_start', '<i8'), ('idx_end', '<i8'), ('is_leaf', '<i8'), ('radius', '<f8')]),array([[[0.68012737, 0.52767645, 0.53022429]]]))
'''
  • 返回了4个数组
    • 第一个数组:原始数据点数组

    • 第二个数组:整数数组,代表每个点的索引

    • 第三个数组:结构化数组,包含了 BallTree 的内部树结构的信息

      • idx_startidx_end:定义了存储在当前节点的点的索引范围。
      • is_leaf:表明当前节点是否是叶节点。
      • radius:当前节点中所有点到节点中心点的最大距离
    • 第四个数组:树的每个节点的中心点

2.2 get_tree_stats

获取 BallTree 的状态信息:树的剪枝次数、叶节点的数量、分裂次数

2.3 query

查询树以找到 k 个最近邻居

query(X, k=1, return_distance=True, dualtree=False, breadth_first=False)
X要查询的点的数组
k

(int,默认为1)

要返回的最近邻居的数量

return_distance

(bool,默认为True)

如果为 True,返回一个包含距离和索引的元组 (d, i);

如果为 False,只返回数组 i

dualtree

(bool,默认为False):

如果为 True,使用双树形式进行查询:为查询点构建一个树,并使用这对树来高效地搜索这个空间当点的数量变得很大时,这可以带来更好的性能

breadth_first

(bool,默认为False)

如果为 True,则以广度优先的方式查询节点。否则,以深度优先的方式查询

sort_results

(bool,默认为True)

如果为 True,则在返回时对每个点的距离和索引进行排序,使得第一列包含最近的点

import numpy as np
from sklearn.neighbors import BallTree
X = np.random.random((100, 3))
tree = BallTree(X)                
tree.query(X[:3],k=3)
'''
(array([[0.        , 0.08335798, 0.15625817],[0.        , 0.06843236, 0.10825558],[0.        , 0.0968137 , 0.10245125]]),array([[ 0, 59, 88],[ 1, 70,  5],[ 2, 43, 20]], dtype=int64))
'''

2.4 query_radius

  • 进行半径查询的功能
  • 查询树,以找出在指定半径 r 内的邻居点
query_radius(X, r, return_distance=False, count_only=False, sort_results=False)
X要查询的点的数组
r

返回邻居的距离范围

r 可以是单个值,也可以是一个数组,形状为 x.shape[:-1],如果每个点需要不同的半径

return_distance

(bool,默认为False)

如果为 True,则返回每个点的邻居距离;如果为 False,则只返回邻居

query() 方法不同,这里设置 return_distance=True 会增加计算时间。如果 return_distance=False,并不需要显式计算所有距离

count_only

(bool,默认为False)

如果为 True,则只返回距离 r 内的点的数量;

如果为 False,则返回距离 r 内所有点的索引

sort_results

(bool,默认为False)

如果为 True,则在返回之前对距离和索引进行排序。如果为 False,则结果不排序

import numpy as np
from sklearn.neighbors import BallTree
X = np.random.random((100, 3))
tree = BallTree(X)                
tree.query_radius(X[:3],r=0.3)
'''
array([array([ 0, 68, 11, 31, 46, 19, 36, 63, 16, 86, 79], dtype=int64),array([26, 64, 20, 94,  1,  4, 13,  3], dtype=int64),array([35, 50, 30, 83, 85, 18, 15, 53,  2, 96, 81], dtype=int64)],dtype=object)
'''

2.5 two_point_correlation

计算距离小于等于r[i]的点的数量

two_point_correlation(X, r, dualtree=False)
X要查询的点集
r一维数组,包含距离值
dualtree

如果为 True,则使用双树算法;否则,使用单树算法。

对于大量数据点(N),双树算法可能有更好的扩展性

返回值

counts (ndarray): counts[i] 包含距离小于或等于 r[i] 的点对数

import numpy as np
from sklearn.neighbors import BallTree
X = np.random.random((100, 3))
r=np.linspace(0.1,1,5)
tree = BallTree(X)                
tree.two_point_correlation(X[:3],r=r)
#array([  4,  34,  99, 196, 263], dtype=int64)
'''
返回的第一个值:和X[0]的距离小于r[0]的数量+和X[1]的距离小于r[0]的数量+和X[2]的距离小于r[0]的数量
'''

3 KD-Tree

和Ball-Tree 一模一样

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/145704.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stable diffusion comfyui的api使用教程

一、为什么要使用comfyui的api?对比webui的api&#xff0c;它有什么好处&#xff1f; 1、自带队列 2、支持websocket 3、无需关心插件是否有开放api接口&#xff0c;只要插件在浏览器中可以正常使用&#xff0c;接口就一定可以使用 4、开发人员只需关心绘图流程的搭建 5、切换…

【数据结构】快速排序算法你会写几种?

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前正在学习c和算法 ✈️专栏&#xff1a;数据结构 &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章有啥瑕疵 希望大佬指点一二 如果文章对你有帮助…

Stable Diffusion 是否使用 GPU?

在线工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion 已迅速成为最流行的生成式 AI 工具之一&#xff0c;用于通过文本到图像扩散模型创建图像。但是&#xff0c;它需…

Linux基本指令及周边(第一弹)

文章目录 前言mkdir指令&#xff08;重要&#xff09;&#xff1a;tree指令rmdir指令 && rm 指令(重要&#xff09;&#xff1a;touch指令ls指令pwd指令cd 指令用户家目录man指令&#xff08;重要&#xff09;&#xff1a;mv指令&#xff08;重要&#xff09;cat指令绝…

vue2+elementUI 仿照SPC开发CPK分析工具

源码地址请访问 Vue CPK分析工具页面设计源码&#xff08;支持左右可拖拽和表格可编辑、复制粘贴&#xff09;仿照SPC开发-CSDN博客

序列化、反序列化和反射会破坏单例模式

反射和序列化操作都可能破坏单例模式的实现。 使用反射可以访问类的私有构造函数并强制创建一个新的实例&#xff0c;这将破坏单例模式的唯一性原则&#xff0c;因为它允许创建多个实例。为防止这种情况发生&#xff0c;可以通过在单例类的构造函数中添加防止多次实例化的检查…

Python---列表 集合 字典 推导式(本文以 字典 为主)

推导式&#xff1a; 推导式comprehensions&#xff08;又称解析式&#xff09;&#xff0c;是Python的一种独有特性。推导式是可以从一个数据序列构建另一个新的数据序列&#xff08;一个有规律的列表或控制一个有规律列表&#xff09;的结构体。 共有三种推导&#xff1a;列表…

TDengine 跨版本迁移实战

TDengine 3.0 已经退出了近一年&#xff0c;目前已经到了 3.2 版本。很遗憾的是 2.x 和 3.x 之间的数据文件不兼容。 如果向从 2.x 升级到 3.x 只能选择数据迁移的方式。 目前数据迁移有三种方法&#xff1a; 使用官方推荐工具 taosx。使用 taosdump 工具。自己写程序。 迁移…

DevOps系列---【jenkinsfile使用sshpass发送到另一台服务器】

1.首先在宿主机安装sshpass 2.把物理机的sshpass复制到容器中 which sshpass cp $(which sshpass) /usr/local/app/ docker cp sshpass 容器id:/usr/local/bin/sshpass 3.在jenkinsfile中添加 #在stages中添加stage stage(部署TEST服务){steps{sh "sshpass -p root1234 sc…

【Azure 架构师学习笔记】-Azure Storage Account(6)- File Layer

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Storage Account】系列。 接上文 【Azure 架构师学习笔记】-Azure Storage Account&#xff08;5&#xff09;- Data Lake layers 前言 上一文介绍了存储帐户的概述&#xff0c;还有container的一些配置&#xff0c;在…

ubuntu云服务器配置SFTP服务

目录 一、安装并运行SSH服务 1&#xff0c;安装ssh服务 2&#xff0c;运行ssh 3&#xff0c;查看ssh运行状态 二、创建SFTP用户并进行用户相关的配置 1&#xff0c;创建SFTP用户 2&#xff0c;限制用户只能使用 SFTP&#xff0c;并禁止 SSH 登录。打开/ect/ssh/sshd_conf…

Android 中字符串空格占位

Android 中字符串空格占位 在布局文件XML中的占位符&#xff08;分号是占位符的一部分&#xff09; 普通的英文半角空格 &#xA0; no-breakspace(普通的英文半角空格但不换行) 中文全角空格(一个中文宽度) &ensp; en空格(半个中文宽度) &emsp; em…

E签宝面试题

文章目录 1.自我介绍2.静态方法和普通方法的区别?3.了解bio/nio/aio吗?4.Spring中创建Bean的方法?4.1 通过Spring XML实现4.2 通过注解实现5.讲讲集合类?6.说说ThreadLocal?7.Redis淘汰策略有哪些?8.说下对JVM的了解?9.详细说下堆区?10.Nacos中有一个服务挂了再调用它会…

ElasticSearch6.8.1 常见错误

1.vm.max_map_count max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144] 1.1 修改 /etc/sysctl.conf 只添加最后vm值即可&#xff0c;sysctl -p /etc/sysctl.conf net.ipv4.conf.all.accept_redirects0 net.ipv4.tcp_tw_reuse1 n…

ChatGPT被曝测试新功能:学习所有历史聊天,还能重置记忆、“阅后即焚”

丰色 发自 凹非寺 量子位|公众号QbitAI ChatGPT可能要上新一项重大功能了。 那就是记住你之前的聊天内容并不断从中学习&#xff08;并非单纯保存历史记录&#xff09;&#xff0c;从而了解你的偏好和信息&#xff0c;用于在日后聊天派上用场。 比如你可以给它下达一句“始终…

Django——模板层、模型层

模板层 一. 模版语法 {{ }}: 变量相关 {% %}: 逻辑相关 1. 注释是代码的母亲 {# ... #} 2. 基本数据类型传值 int1 123 float1 11.11 str1 我也想奔现 bool1 True list1 [小红, 姗姗, 花花, 茹茹] tuple1 (111, 222, 333, 444) dict1 {username: jason, age: 18, i…

3.5 Windows驱动开发:应用层与内核层内存映射

在上一篇博文《内核通过PEB得到进程参数》中我们通过使用KeStackAttachProcess附加进程的方式得到了该进程的PEB结构信息&#xff0c;本篇文章同样需要使用进程附加功能&#xff0c;但这次我们将实现一个更加有趣的功能&#xff0c;在某些情况下应用层与内核层需要共享一片内存…

基于 Amazon EKS 搭建开源向量数据库 Milvus

一、前言 生成式 AI&#xff08;Generative AI&#xff09;的火爆引发了广泛的关注&#xff0c;也彻底点燃了向量数据库&#xff08;Vector Database&#xff09;市场&#xff0c;众多的向量数据库产品开始真正出圈&#xff0c;走进大众的视野。 根据 IDC 的预测&#xff0c;…

photoshop插件开发入门

photoshop 学习资料和sdk 下载地址https://developer.adobe.com/console/servicesandapis/ps 脚本编程文档 官方文档&#xff1a; https://extendscript.docsforadobe.dev/ 官方文档&#xff1a; https://helpx.adobe.com/hk_en/photoshop/using/scripting.html open(new F…

用人话讲解深度学习中CUDA,cudatookit,cudnn和pytorch的关系

参考链接 本人学习使用&#xff0c;侵权删谢谢。用人话讲解深度学习中CUDA&#xff0c;cudatookit&#xff0c;cudnn和pytorch的关系 CUDA CUDA是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构&#xff0c;是一种并行计算平台和编程模型&…