1 简介
代价敏感多标签主动学习目前是闵老师小组正在进行的一个开发项目,目的是将代价敏感和主动学习思想应用到多标签学习中。整个Java代码涵盖了很多技术:并行计算、batch处理。本文就是在学习这个代码后的一些总结。学习方法采用的至顶向下。
2 Cmale类
该类为测试的主类。
2.1 数据
- dataset:保存整个多标签数据集
- numInstances:样本的个数
- numConditions:条件属性的个数
- numLabels:标签的个数
- outputFile:输出的文件
- multiLabelAnn:用于分类的多标签神经网络
- representativenessArray:保存所有实例的代表性
- representativenessRankArray:所有实例代表性的排名
2.2 方法
-
(1)Cmale:构造方法
step 1. 读数据文件构建dataset
step 2. 计算实例的代表性
step 3. 准备输出文件 -
(2)initializeMultiLabelAnn:初始化多标签神经网络
利用dataset,全连接层节点,并行层节点构建多标签神经网络 -
(3)boundedTrain:给定轮数的上界、下界进行训练
-
(4)boundedEmphasizedTrain:给定训练轮数的上界, 进行针对性 (增量) 训练
-
(5)computeInstanceRepresentativeness:基于密度峰值来计算实例的代表性
-
(6)twoStageLearn:两阶段学习: 冷启动 (仅考虑对象代表性与标签稀少性) 与 正常训练 (考虑标签不确定性) 注意: 这里是算法的核心, 需要改策略
-
(7)randomSelectionLearn: 随机选择标签的学习, 作为对比算法. 如果我们的策略不比随机策略好, 就没有意义
3 MultiLabelData类:数据管理
本类读入 arff 文件, 存储成一个数据矩阵和标签矩阵
3.1 数据
- dataMatrix: 数据矩阵
- labelMatrix: 标签矩阵
- predictedLabelMatrix: 预测的标签矩阵
- labelQueriedMatrix: 记录哪些标签被查询
- 查询代价、误分类代价等
3.2 方法
- reset: 重置以支持多次训练
- randomQuery: 随机查询给定数量的标签, 支持随机查询方案
- getScareLabels: 找出哪些标签是稀少的
- queryLabels: 查询某个对象的一组标签. 需要在内部保持数据的一致性, 出错影响大
- computeAccuracy: 根据预测的标签矩阵计算准确率. 需要预先给出预测值
- computeTrainingAccuracy: 计算在训练集中的准确率, 以支持训练结束的终止条件
- computeTotalCost: 计算总代价, 包括查询代价与误分类代价
- distance: 计算两个实例之间的距离 (Manhattan 或 Euclidean)
4. 分类器构建 MultiLabelAnn.java
本类的神经网络支持全连接层和并行连接层. 输入端口数为条件属性数, 输出端口数为标签数的 2 倍.
4.1 变量
dataset: 数据集
4.2 方法
- train: 训练一轮, 仅使用被查询过的对象
- emphasizedTrain: 训练一轮, 被强调的数据多次训练, 支持增量学习. 这是因为主动学习过程是增量学习
- test: 使用所有数据测试
- computeLabelUncertaintyMatrix: 计算标签不确定性矩阵 注意: 这是核心方法, 以后可能要修改策略
- getMostUncertainLabelIndices: 获得不确定性最高的几个标签, 包括对象下标 (一个) 与标签下标 (多个) 注意: 以后可能修改, 以支持多个对象的批量选取, 缩短程序运行时间
- getUncertainLabelBatch: 大家好, 我就是上一条说的 “以后”
- forward: 神经网络标准的前向操作
- backPropagation: 神经网络标准的回馈操作