假设
- 部分多标签学习(PML)假设:假设样本的标签集合中存在伪正标签,即某些标签可能是错误的。目标是从候选标签集中识别出真实标签。
- 特征与标签的关系假设:假设不同的标签对应的特征子空间可能是不同的,而不是所有标签共享相同的特征空间。
技术路线
论文提出了一种新的基于标签置信度的特征选择方法(LCFS-PML),其核心技术路线包括:
- 计算标签置信度:通过以下两个指标评估标签是否可靠:
- 同标签样本的平均距离( d avg d_{\text{avg}} davg):同一标签的样本之间的平均距离,距离越小说明标签越可靠。
- 到聚类中心的距离( d C d_C dC):样本到该标签的聚类中心的距离,距离越小说明标签置信度越高。
- 特征与标签的联合优化:
- 在每个标签的独特特征子空间中计算标签置信度,并去除低置信度的伪标签。
- 通过优化特征子空间来进一步提升标签置信度,使特征和标签相互优化。
- 交替优化策略:
- 先优化特征子空间:去除冗余和歧义特征,提高分类能力。
- 再优化标签置信度:基于优化后的特征重新计算标签置信度,并筛选掉伪正标签。
- 不断循环迭代,直到达到收敛。
创新点
- 引入标签置信度评估方法:
- 结合 同标签样本的平均距离 和 样本到聚类中心的距离,更准确地评估标签的真实性。
- 提出基于标签的特征选择策略:
- 不是所有标签共享相同的特征空间,而是为每个标签建立单独的最优特征子空间,提高了学习的精度。
- 采用特征-标签交替优化策略:
- 在特征优化和标签优化之间形成一个闭环,使两个过程相互促进,提高模型的稳定性和鲁棒性。
数学公式
- 标签置信度计算:
- 同标签样本的平均距离:
d avg , i , l = 1 K ∑ j = 1 K d ( f i l , f j l ) d_{\text{avg}, i, l} = \frac{1}{K} \sum_{j=1}^{K} d(f_i^l, f_j^l) davg,i,l=K1j=1∑Kd(fil,fjl)
其中, f i l f_i^l fil 表示第 i i i 个样本在标签 l l l 对应的特征子空间中的表示, K K K 为最近邻样本数量。
- 到聚类中心的距离:
d C , i , l = min c ∈ C l d ( f i l , c ) d_{C, i, l} = \min_{c \in C_l} d(f_i^l, c) dC,i,l=c∈Clmind(fil,c)
其中, C l C_l Cl 是标签 l l l 的聚类中心集合。
- 标签置信度公式:
T i , l = exp ( − ( 1 + λ ) ⋅ d avg ⋅ d C λ d avg + d C ) T_{i, l} = \exp\left( \frac{-(1 + \lambda) \cdot d_{\text{avg}} \cdot d_C}{\lambda d_{\text{avg}} + d_C} \right) Ti,l=exp(λdavg+dC−(1+λ)⋅davg⋅dC)
其中, λ \lambda λ 是一个权重参数,用于平衡两种距离的影响。
- 优化目标函数:
- 联合优化特征和标签:
min W , S ∥ X ( W + S ) − L ∥ F 2 + α ∥ X W − L ∗ ∥ F 2 + β ∥ W ∥ 2 , 1 + γ ∥ S ∥ 1 \min_{\mathbf{W}, \mathbf{S}} \| \mathbf{X} (\mathbf{W} + \mathbf{S}) - \mathbf{L} \|_F^2 + \alpha \| \mathbf{X} \mathbf{W} - \mathbf{L}^* \|_F^2 + \beta \| \mathbf{W} \|_{2,1} + \gamma \| \mathbf{S} \|_1 W,Smin∥X(W+S)−L∥F2+α∥XW−L∗∥F2+β∥W∥2,1+γ∥S∥1
其中:
- W \mathbf{W} W 是特征-标签映射矩阵。
- S \mathbf{S} S 是用于去除冗余特征的稀疏矩阵。
- L \mathbf{L} L 是原始带噪声的标签矩阵,而 L ∗ \mathbf{L}^* L∗ 是经过优化的真实标签矩阵。
- α , β , γ \alpha, \beta, \gamma α,β,γ 是超参数,用于平衡不同损失项的影响。
技术实现细节
-
初始化:
- 计算完整特征空间中的标签置信度矩阵 T T T。
- 设定特征选择比例 p p p,用于筛选出每个标签的关键特征子集。
-
交替优化过程:
- 优化特征选择矩阵 W W W:
- 通过梯度下降法优化 W W W,确保其稀疏性,降低特征冗余度。
- 优化噪声标签矩阵 S S S:
- 采用 交替方向乘子法(ADMM) 解决优化问题,使 S S S 具有良好的稀疏性。
- 更新标签置信度矩阵 T T T:
- 计算每个标签的最佳特征子空间,并在该子空间中重新评估标签置信度。
- 优化特征选择矩阵 W W W:
-
迭代收敛:
- 不断重复上述步骤,直到目标函数的损失值收敛。
实验与结论
-
数据集:在多个真实世界数据集(如 Music_emotion, Mirflickr, YeastBP)和合成数据集上进行实验。
-
对比方法:
- LSNRFS:基于标签-特征相关性的特征选择方法。
- PML-FSSO:采用低维子空间来进行特征选择。
- PML-LD:通过重构标签分布进行部分多标签预测。
- PAMB:将 PML 问题转化为多个二分类问题进行优化。
- ML-KNN:基于 K 近邻的方法进行多标签分类。
-
实验结果:
- 在多个数据集上,LCFS-PML 的性能优于现有方法:
- Micro-F1、AP(平均精度)提高显著,表明分类质量更优。
- HL(汉明损失)降低,说明减少了错误分类。
- One-error 降低,表明该方法能更准确地预测最可能的正确标签。
- 在多个数据集上,LCFS-PML 的性能优于现有方法:
-
消融实验分析:
- 去除标签置信度计算后(LCFS-A),模型性能显著下降,说明标签置信度是关键因素。
- 去除标签-特征映射后(LCFS-B),优化过程不稳定,验证了特征子空间优化的重要性。
-
收敛性分析:
- 目标函数的损失值在 20-30 次迭代后趋于稳定,表明优化过程收敛快速。
-
计算复杂度:
- 时间复杂度 约为 O ( n 2 d + n d l + l 2 d ) O(n^2d + ndl + l^2d) O(n2d+ndl+l2d),其中 n n n 是样本数, d d d 是特征维度, l l l 是标签数。
总结
- LCFS-PML 能够有效去除伪正标签,提高分类性能。
- 采用特征-标签交替优化策略,使特征子空间和标签置信度相互提升。
- 实验表明该方法优于已有 PML 方法,特别适用于高维数据和噪声标签数据。
- 计算复杂度较合理,收敛速度较快,适用于大规模数据集。
此方法为部分多标签学习提供了一种新的解决方案,在未来研究中可以拓展到更多实际应用,如文本分类、基因分析、图像标注等领域。