什么是半监督学习
半监督学习也是一类更接近于人类学习方法的机器学习范式。试想这样一个场景,我们小时候学习识别小猫、小狗、汽车等等物品时,往往只需要父母进行一两次的指导,我们就能很准确地辨认出什么是猫狗。这背后有一个重要原因是,我们从出生开始就见过很多次小猫、小狗等等动物,虽然还没有人明确告诉过我们这些动物是什么,但我们的大脑已经对于这些事物建立了足够的认识。整个过程抽象出来与半监督学习的思想很相似,父母的指导可视为有标签数据,出生之后的目之所见即为无标签数据,二者结合帮助我们实现快速地学习。
因此,半监督学习技术既是少样本学习的重要路径之一,也有助于帮助我们发展更接近于人类学习范式的机器学习技术。
什么是伪标签技术
伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。
半监督学习的过程
为标签的具体用法
伪标签技术的使用自由度非常高,在这里我们介绍最常用的也是最有效的三种,对于某些特殊场景,可能有更花哨的方法,这里希望能抛砖引玉,为大家拓宽一下视野。
入门版
1. 使用标记数据训练有监督模型M
2. 使用有监督模型M对无标签数据进行预测,得出预测概率P
3. 通过预测概率P筛选高置信度样本
4. 使用有标记数据以及伪标签数据训练新模型M’
进阶版
1. 使用标记数据训练有监督模型M
2. 使用有监督模型M对无标签数据进行预测,得出预测概率P
3. 通过预测概率P筛选高置信度样本
4. 使用有标记数据以及伪标签数据训练新模型M’
5. 将M替换为M’,重复以上步骤直至模型效果不出现提升
创新版
1. 使用标记数据训练有监督模型M
2. 使用有监督模型M对无标签数据进行预测,得出预测概率P
3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)
4. 使用有标记数据以及伪标签数据训练新模型M’
以上就是伪标签学习最常用的三种方法。
本着知其然、知其所以然的态度,下面介绍一下伪标签为何有效,在知道了为何有效后,才能找到其适合的场景,达到半监督学习的目的。