在推动安全AI 模型的过程中,许多组织已转向差异隐私。但这种旨在保护用户数据的工具是否阻碍了创新?
开发人员面临一个艰难的选择:平衡数据隐私或优先考虑精确结果。差分隐私可以保护数据,但通常以牺牲准确性为代价——对于医疗保健和金融等行业来说,这是一种不可接受的权衡,因为在这些行业中,即使是微小的错误也可能造成严重后果。
寻找平衡
差异隐私通过添加随机噪声来保护个人数据,使得在保留数据集的同时识别个人变得更加困难。
基本概念围绕一个参数 epsilon ( ε ) 展开,该参数充当隐私旋钮。较低的 epsilon 值可实现更强的隐私保护,但会增加更多噪音,从而降低数据的实用性。
一家大型金融科技公司的开发人员最近对差分隐私对其欺诈检测系统的影响表示不满,该系统需要检测交易数据中的微小异常。他们解释说:“当为了保护用户数据而添加噪音时,那些细微的信号就会消失,使我们的模型效率大大降低。”欺诈检测依赖于发现微小的偏差,而差分隐私很容易掩盖这些关键细节。
医疗保健领域的风险甚至更高。例如,用于乳腺癌检测的 AI 模型依赖于医学图像中的精细图案。添加噪音以保护隐私可能会模糊这些图案,从而可能导致误诊。这不仅仅是技术上的不便,还可能危及生命。
差异隐私局限性的一个典型例子是 2020 年美国人口普查。人口普查局首次使用差异隐私来匿名化个人数据。虽然目标是加强隐私保护,但结果却出现了意想不到的后果:注入较小社区数据的噪音扭曲了人口统计信息,导致学校收到错误的资金以及公共服务与实际社区需求不匹配等问题。
各行各业的开发人员都熟悉这种困境。无论是在政府、医疗保健还是金融领域,他们通常都必须遵守隐私法,同时保持数据准确性。当平衡过于偏向隐私时,它会产生远远超出软件性能的连锁反应。
重新思考数据收集
隐私辩论中的一个关键问题是:我们真的需要收集这么多数据吗?隐私问题往往源于过度收集,而不仅仅是我们如何处理数据。“数据越多,模型越好”这一信念促使组织储存信息,尽管其中很多信息都没有用到。
例如,我曾经为一家初创公司提供咨询,这家公司积累了数 TB 的用户数据,但目的不明确。当被问及原因时,他们回答说:“我们可能有一天会需要它。”这增加了隐私风险,并给开发人员带来了庞大的数据集负担,从而降低了性能。数据集越大,匿名化所需的噪声就越多,这进一步降低了模型的准确性。
更智能的数据收集策略有助于解决隐私问题和模型准确性这两个问题。通过只关注必要数据,公司可以减少需要匿名化的信息量,为开发人员提供更干净、更准确的数据集。
开发商的隐性成本
时间是开发人员最宝贵的资源之一,而差分隐私往往会导致效率低下。花费在抵消噪音所损失的准确度上的时间本可以更好地用于构建新功能或改进模型。一家电子商务公司在向其推荐引擎添加差分隐私时,从惨痛经历中吸取了教训。旨在保护用户数据的噪音导致了不相关的产品建议,例如向购买衣服的顾客推荐厨房用具。
这让用户感到沮丧,并推迟了新功能的发布,使公司在速度至关重要的行业中处于竞争劣势。
挑战与限制
差异隐私面临的最大挑战之一是在隐私和数据效用之间找到适当的平衡。隐私应用得越多,数据就越没用。这对于依赖大型数据集中精确模式的人工智能模型来说尤其成问题,因为即使是很小的误差也会破坏关键结果。开发人员,尤其是那些需要高精度的领域的开发人员,一直对差异隐私迫使他们在安全性和性能之间做出妥协表示担忧。
探索更智能的隐私解决方案
如果差分隐私不是每种情况的最佳解决方案,那么还有哪些替代方案?两个有希望的选择是联合学习和更智能的数据收集。
联合学习在智能手机等分散设备上训练 AI 模型,无需共享原始数据。相反,只会发回聚合的匿名更新,在保持模型准确性的同时保护隐私。谷歌和苹果等公司将这种技术用于预测文本等服务,在不暴露敏感数据的情况下改进模型。
联邦学习 (FL) 允许数据保留在生成数据的设备上,从而增强数据隐私。这种方法减少了传输过程中敏感信息的暴露。此外,通过最大限度地减少集中存储,FL 降低了大规模数据泄露的风险。
FL 还通过将训练过程分散到多个客户端来降低集中攻击风险。即使一台设备受到攻击,攻击者也只能访问一小部分数据。
更智能的数据收集侧重于仅收集最相关的信息。我曾合作过的一家医疗保健公司从收集大量患者数据转变为仅关注改进诊断模型所需的关键数据点。通过使用较小的有针对性的数据集,他们无需依赖差异隐私即可保持较高的准确率。
灵活的法规以实现更智能的隐私
GDPR和 CCPA等隐私法规促使许多公司默认采用差异隐私。但隐私挑战并不统一。随着人工智能的发展,隐私法也需要适应。
与我交谈过的一位 AI 伦理顾问总结道:“政府必须认识到 AI 正在不断发展。差异隐私解决了一些老问题,但 AI 已经取得了快速发展。”为了让开发人员采用适合其模型的隐私方法,法规需要提供更大的灵活性,允许采用在不牺牲性能的情况下保护隐私的方法。
重新思考人工智能开发中的隐私
随着人工智能不断改变行业,组织显然需要重新考虑其隐私保护方法。差异隐私有其适用之处,但它远非人们通常所认为的万能解决方案。
通过采用联合学习和更智能的数据收集等替代方案,开发人员可以在不牺牲创新的情况下构建准确、保护隐私的 AI 模型。组织不应收集大量数据,而应专注于只收集必要的数据。真正的问题可能不是如何保护我们收集的数据,而是我们是否应该首先收集这么多数据。