联邦学习的体系我们在前期介绍过,这里我们简单回顾一下纵向联邦学习的定义:在两个数据集的用户重叠较多而用户特征重叠较少的情况下,将数据集按照纵向 (即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫做纵向联邦学习。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。目前,逻辑回归模型,树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在这个联邦学习体系上,本期我们详细介绍一下联邦学习中的逻辑回归算法模型。逻辑回归算法是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)。Logistic方法主要应用于研究某些事件发生的概率。因此,逻辑回归模型是一种分类模型。现假设有一个二分类问题,输出为y=0或者1,而线性回归模型z=wTx+b是个实数值,因此我们希望有一个理想的阶跃函数来巧妙实现z值到0/1值的转化,机器学习经常使用Sigmoid函数来实现这个目的:y’=1/1+e-z。逻辑回归的优缺点有哪些?优点:1)速度快,适合二分类问题;2)简单易于理解,直接看到各个特征的权重;3)能容易地更新模型吸收新的数据。缺点:对数据和场景的适应能力有局限性,不如决策树算法适应性那么强。联邦学习体系的逻辑回归模型有很多解决方案。如:FATE的方案是建立在第三方的基础上,如下图所示:
百度提出的方案虽然避免了第三方,但是经过我们的论证,也存在数据/信息泄露问题。神谱科技的方案在设计当初就注意规避了第三方,而且有效解决了数据/信息泄露问题,这套方案是神谱科技自主创新并完成研发的去中心化的安全逻辑回归算法,称为:SeceumLR安全逻辑回归算法,简要说明如下图所示。我们对SeceumLR算法进行了严格安全论证,确保不会泄露参与各方的隐私数据/信息。
上面是本期介绍联邦学习体系下的逻辑回归模型,方案中涉及的密码学技术有很多,其中最重要的技术是安全多方计算(Secure Multi-Party Computation-SMPC/MPC),下期我们主要介绍安全多方计算。