摘要:
随着信息技术和互联网的飞速发展,人们可以从多个信息源获得数据,即多源数据.由于多源数据具有类型多样,尺度不统一等特点,对多源数据进行汇聚并提取有效信息是机器学习和模式识别等领域研究的热点.由于多流形学习能够有效地揭示复杂数据中的内在结构,因此本文主要利用多流形模型对多源数据汇聚中的边界检测问题,鲁棒性问题和自适应性问题展开研究.本文主要工作包括如下三个方面:提出了基于边界检测的多流形学习算法.该算法通过检测流形的边界点来划分数据的多流形结构,并利用流形间的边界点与距离最远点来保持数据的整体几何结构.在人工数据集和真实数据集上的实验证明,基于边界检测的多流形学习算法在流形间相对分离的数据上有较好的识别效果.提出了多源数据鲁棒谱多流形学习算法.该算法首先通过降噪投影矩阵对原始数据进行提纯;再利用混合主成分分析模型将相交多流形分成若干个"不相交块",根据样本局部近邻切空间对每一源数据构建相似度矩阵;最后将各源相似度矩阵进行汇聚,实现对多源数据的识别.在单源数据集和多源数据集上的实验表明,该算法相较于其他算法有更好的识别能力和鲁棒性.提出了多源数据非负自适应多流形学习算法.传统多源数据学习算法在进行多源数据汇聚时需要引入超参数确定各源数据的权重.该算法将每一源数据看作一个流形,通过自适应的方式更新各源数据的权重和近邻矩阵,更准确地表示数据的流形结构.最后将各源数据的近邻矩阵进行汇聚,得到一致自适应相似度矩阵.该算法充分利用了多源数据的互补性与一致性,提升了学习性能.
展开