半监督
少量有标注,大量无标注
1.三个假设:
(1)连续性/平滑性假设:相近的数据点可能有相同的标签
(2)集群假设:在分类问题中,数据往往被组织成高密度的集群,同一集群的数据点可能具有相同的标签。因此,决策边界不应该位于密集的数据点区域;相反,它应该位于高密度区域之间,将它们分离成不连续的群组。
(3)流形假设:高纬数据分布可以在一个嵌入式的低纬空间中表示。这个低纬空间被称为数据流形。
2.方法:
(1)一致性正则化:
核心动机:利用连续性和集群假设
具体操作:对于一个给定的特征x,我们的模型应该对潜在Augment(x)半径内的所有数据点做出类似的预测。即加扰动不影响输出。(我们选中x。那么x和x周围的类别是一致的)
实现方法:
正规全监督+ x i x_i xi 和 x i x_i xi附近 的数据点的差距(差距不大)
l o s s = { C r o s s E n t r o p y ( x i , y i ) + ∥ f θ ( x i ) − f θ ( A u g m e n t ( x i ) ) ∥ 2 2 , x i ∈ X l a b e l e d ∥ f θ ( x i ) − f θ ( A u g m e n t ( x i ) ) ∥ 2 2 , x i ∈ X u n l a b l e d \left.loss=\left\{\begin{matrix}CrossEntropy(x_i,y_i)+\|f_\theta(x_i)-f_\theta(Augment(x_i))\|_2^2,x_i\in X_{labeled}\\\|f_\theta(x_i)-f_\theta(Augment(x_i))\|_2^2,x_i\in X_{unlabled}\end{matrix}\right.\right. loss={CrossEntropy(xi,yi)+∥fθ(xi)−fθ(Augment(xi))∥22,xi∈Xlabeled∥fθ(xi)−fθ(Augment(xi))∥22,xi∈Xunlabled
(2)伪标签
核心动机:把半监督问题转换成全监督
具体操作:想办法得到伪标签
(3)生成对抗网络
核心动机:用鉴别器找到值得信赖的区域
(4)主动学习
核心动机:识别哪些未标记的点是最有价值的,由人在循环中进行标记。