【k近邻】 K-Nearest Neighbors算法原理及流程
【k近邻】 K-Nearest Neighbors算法距离度量选择与数据维度归一化
【k近邻】 K-Nearest Neighbors算法k值的选择
【k近邻】 Kd树的构造与最近邻搜索算法
【k近邻】 Kd树构造与最近邻搜索示例
近邻法的实现需要考虑如何快速搜索个最近邻点,而树就是一种便于对 维空间中的数据进行快速检索的数据结构。
树是二叉树,表示对维空间的一个划分,其每个结点对应于 维空间划分中的一个超矩形区域,利用树可以省去对大部分数据点的搜索,从而减少搜索的计算量。
例: 给定一个二维空间的数据集,
依据算法可以对特征空间进行划分
(1)根结点对应包含数据集的矩形,选择轴;
(2)6 个数据点的坐标的中位数是 7 ,以平面 将空间分为左、右两个子矩形(子结点);
(3)左矩形以分为两个子矩形,右矩形以 分为两个子矩形;
(4)如此递归,最后得到如上图所示的特征空间划分和如下图所示的 树。
例:给定一个如图所示的树
根结点为,其子结点为, 等。树上共存储7个实例点,1个输入目标实例点 ,使用kd树的最近邻搜索算法可以求得的最近邻点。
(1)首先在 树中找到包含点的叶结点 (图中的右下区域), 以点作为近似最近邻。真正最近邻一定在以点为中心通过点的圆的内部;
(2)返回结点的父结点, 在结点的另一子结点的区域内搜索最近邻;
(3)结点的区域与圆不相交,不可能有最近邻点,故继续返回上一级父结点;
(4)在结点的另一子结点的区域内搜索最近邻,结点的区域与圆相交;该区域在圆内的实例点有点,点比点更近,成为新的最近邻近似;
(5)得到点是点的最近邻。