谷歌Gboard应用的语言模型创新:提升打字体验的隐私保护技术

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

谷歌的键盘应用程序Gboard通过使用语言模型(LM)来改善用户的打字体验,提供了下一个词预测、自动更正、智能编写、滑动输入和校对等功能。我们的研究人员优先考虑开发负责任的方法,既能提高Gboard的LM性能,又能维护最高的隐私标准。近年来,我们取得了重大进展,包括向用户提供数据使用披露和配置控制,以及使用联邦学习和差分隐私(DP)来训练Gboard的LM,从而提供可量化且严格的数据匿名度量。

Gboard的LM设计为使用预定义的常用词列表,称为词汇表。LM的性能取决于这个词汇表的质量,而词汇表随时间可能会变化。不属于词汇表的词被称为词外词(OOV)。OOV词出现的原因有几个,例如,某些语言的词汇表在Gboard中仍在开发中,所以OOV词的比例可能较高。在词汇表相对完整的语言中,如美国英语,OOV词通常由于新兴的流行词(如“COVID-19”和“Wordle”)、非典型大小写(如“tuesday”)以及用户偏好的不寻常拼写(如“cooool”)或甚至打字错误而出现。由于用户在键盘上输入的信息性质敏感,OOV发现是一项具有挑战性的任务。

今天,我们很高兴分享几种通过发现新的常用词来提高LM性能的方法,同时保持强大的数据最小化和DP保证。这些研究工作包括与语言学家合作揭示新的OOV词,使用隐私保护的联邦分析和其他DP算法,以及使用受信任执行环境(TEE)。

与语言学家的合作


发现OOV词的一种方法是通过与外部方负责任的合作获取经过审查的词汇表。例如,我们与皇家机构西班牙皇家学院(RAE)合作,该机构的使命是确保西班牙语的稳定性,创建了更精细的西班牙语字典并将其纳入Gboard。这使得对在西班牙打字的用户来说,自动更正更快、词汇推荐更好,从而改善了Gboard体验。许多之前缺失的词包括常见名字、品牌名和地点名;相对技术性的词(如“euribor”、“dopamina”、“tensiómetro”);以及特定于西班牙说话者的变形(如“cuidáis”、“invitáis”、“tiráis”)。

我们使用之前的训练数据重新训练我们的西班牙语LM,并通过联邦重新训练下游模型,取得了显著的质量改进。OOV词的总比例下降了7.3%。打字词在初始提交后被修改的频率降低,由于使用了更大的词汇表,打字速度也因此得到提升。

隐私保护的联邦分析
另一种改进词汇表的方法是从用户设备中发现频繁的OOV词。这本身是一项具有挑战性的任务,因为用户在其设备上键入的内容性

质敏感。因此,我们需要精心设计机制,在数据收集和处理阶段保护用户的敏感信息。为此,我们采用联邦分析,这是一种数据最小化方法,用于在不共享敏感数据的情况下对分布式数据集执行统计查询,并通过新算法扩展它到开放集领域。这使得我们能够在保护用户贡献通过数据最小化技术(如安全聚合(SecAgg))和数据匿名化技术(如DP)的同时,动态地发现OOV词。

No, it seems like the response was cut off. Here's the continuation and conclusion of the translation:

我们开发的一项技术是SecAggIBLT,它结合了可逆的布隆查找表(IBLT)和SecAgg。IBLT是一种线性数据结构,允许高效地插入、删除和查找键值对。在这里,用户将其OOV词插入到初始化为零的IBLT中,然后通过SecAgg进行聚合。这保证了即使是诚实但好奇的服务器,也只能看到聚合的IBLT(所有设备上的所有OOV词及其频率),而不是单个用户的贡献。这种方法为用户贡献提供了匿名性,并阻止服务器将特定词与单个用户联系起来。在数据处理阶段,中心DP应用于发现的OOV词及其计数,以确保对少数个体来说独特的OOV词永远不会被发布。DP使用参数(ε,δ)来量化隐私保护(数值越小,保护越强)。它提供了一个正式保证,即发布的数据模式在设备之间足够普遍,从而防止个体识别。

在Gboard的使用案例中,由于用户输入可能来自包含敏感信息的大量可能性,例如英语用户可能会输入任意长度的单词或短语,包含来自拉丁字母表的字符、数字列表或其他特殊字符,这些输入可能包含他们的个人信息,如用户名和信用卡号。因为SecAggIBLT能够发现这样独特的词,它依赖于服务器在SecAgg之后正确应用中心DP来确保用户隐私。本身它并不阻止好奇的服务器检查发现的OOV词,可能访问敏感信息。这要求我们开发算法,用更强的数据最小化和DP保证来发现频繁的OOV词。

为此,我们在现有的研究基础上开发了LDP-TrieHH,通过迭代构建字典树(前缀树)数据结构来学习频繁的单词。LDP-TrieHH在数据收集过程中提供了强大的数据最小化和严格的本地DP(LDP)保证。在将LDP-TrieHH算法应用到特定语言时,如在美国和印度尼西亚使用的英语,字典树的每一层都存储与该层深度相对应的一组常见前缀。字典树从根部开始迭代构建,最大长度为15。在每一层,我们收集来自一组用户的反馈,他们只通过在上一层学到的常见前缀后指示一个字符来贡献他们的数据。例如,如果“CO”是算法在前一层学到的一个常见前缀,用户输入单词“COVID-19”,用户将只通过提交对“COV”的投票而不是整个单词“COVID-19”来贡献他们的数据,这减少了从投票过程中泄露的信息量。

我们还通过最小化用户参与(每个用户在最多一个层的投票阶段参与)、限制每个用户可以贡献的投票数量(60天期间平均每天一个单词)、并在用户的投票中添加本地噪音来提供严格的LDP保证(ε=10.0每个单词),从而进一步保护用户投票的隐私。为此,我们使用子集选择机制,它在LDP下提供最优的效用-

隐私权衡。在每一层,我们从大量用户(每层50万)中收集投票,这些投票经过聚合和阈值处理,以过滤掉不常见的前缀。通过这一额外的数据处理步骤,通过聚合分析隐私放大,LDP-TrieHH提供了每个词的中心DP保证(ε=0.315,δ=1e-10),每个用户在60天内最多贡献60个单词(即平均每天一个单词)。为了提高发现词的覆盖率,我们连续运行LDP-TrieHH多次,构建几个具有不同用户集的字典树。在后续运行中,我们要求用户只贡献尚未从前几次运行中学到的OOV词,以更有效地利用每个用户的贡献预算。通过LDP-TrieHH,我们能够发现占英语和印尼语OOV词的16.8%和17.5%。此报告提供了更多细节。

通过TEE扩展到更多语言,实现可验证的隐私
使用LDP-TrieHH方法私下发现OOV词的能力依赖于Gboard活跃的英语和印尼语用户的大量(数百万)数量。然而,对于使用量较小的语言,LDP-TrieHH的准确性将不可避免地较低。为了更好地跨语言扩展,包括使用量较低的语言,Gboard现在正在利用受信任执行环境(TEE)的服务器端处理联邦数据,开始进行验证这种方法的实验,使用合成和真实数据。

TEE是常见处理器的安全扩展,通过嵌入的秘密加密密钥(由硬件制造商签名)来促进工作负载的保密性、完整性和可验证性。我们正在开发的系统,如本白皮书所述,使设备能够验证只能在受TEE保护的过程中解密安全上传的数据,这一过程只发布私有化的聚合数据,且数据不能用于任何其他目的。TEE方法通过DP增强,提供与LDP-TrieHH类似的隐私保护,具有更好的可扩展性,并对类似的隐私威胁具有强大的抵抗力。未来几个月将有更多更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/11763.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

blender cell fracture制作破碎效果,将一个模型破碎成多个模型

效果: 1.打开编辑-》偏好设置。搜索cell,勾选上如下图所示的,然后点击左下角菜单里的保存设置。 2.选中需要破碎的物体,按快捷键f3(快速搜索插件),搜索cell fracture。 3.调整自己需要的参数配置…

广东省网络安全竞赛部分web,misc wp

我的队伍只做了5题,还是太菜了,本来不想发的,但是写都写了,还是水一篇博客吧 这里是我们队的wp misc1 给了一个压缩包,解压需要密码,用纯数字密码没跑出来,感觉可能不是要强跑,看…

今天开发了一款软件,我竟然只用敲了一个字母(文末揭晓)

软件课题:Python实现打印100内数学试题软件及开发过程 一、需求管理: 1.实现语言:Python 2.打印纸张:A4 3.铺满整张纸 4.打包成exe 先看效果: 1. 2.电脑打印预览 3.打印到A4纸效果(晚上拍的&#x…

Java后端的接口参数两个interger 类型情况解决

get请求 &#xff0c;对应请求头 RequestParm, post请求&#xff0c; 对应请求体 &#xff0c;RequestBody 两个Integer参数情况 GetMapping("/insertStaffClass")public R<Void> insertStaffClass(RequestParam Integer staffId,RequestParam List<Integ…

Node.js全栈:从一个简单的例子开始

第一章&#xff1a;从一个简单的例子开始第二章&#xff1a;看官方文档的艺术第三章&#xff1a;浏览器显示一个网页 首先&#xff0c;在VSCode编辑器中打开一个没有任何文件的空目录&#xff0c;然后创建一个package.json文件。 为了方便大家复制&#xff0c;我把文件内容放到…

Pytorch的torch.nn.functional.cross_entropy的ignore_index细解

作用 ignore_index用于忽略ground-truth中某些不需要参与计算的类。假设有两类{0:背景&#xff0c;1&#xff1a;前景}&#xff0c;若想在计算交叉熵时忽略背景(0)类&#xff0c;则可令ignore_index0&#xff08;同理忽略前景计算可设ignore_index1&#xff09;。 代码示例 i…

使用Flask的send_file方法实现文件下载功能

文章目录 什么是send_file方法&#xff1f;如何在Flask应用中使用send_file方法&#xff1f;示例拓展处理文件不存在的情况设置下载文件的名称实现文件下载的权限控制 结论 在Web开发中&#xff0c;经常需要实现文件下载功能&#xff0c;而Python的Flask框架提供了方便的send_f…

华为手机恢复出厂设置后怎么还原数据?该如何预防数据丢失?

华为手机恢复出厂设置是将手机恢复到出厂时的初始状态&#xff0c;同时会删除所有用户数据和个人设置。如果不做任何预防措施&#xff0c;在恢复出厂设置后&#xff0c;您将丢失手机上的所有数据。那华为手机恢复出厂设置后怎么还原数据呢&#xff1f;以下是关于如何在华为手机…

新的语言学习系统: 记忆镶嵌

摘要 记忆镶嵌是由多个关联记忆网络协同工作来完成感兴趣的预测任务。与transformer类似,记忆镶嵌具有组合能力和上下文学习能力。与transformer不同,记忆镶嵌以相对透明的方式实现这些能力。该研究在玩具示例上展示了这些能力,并且还表明记忆镶嵌在中等规模语言建模任务上的表…

头歌(EduCoder):数据挖掘算法原理与实践 -- 决策树

【头歌】机器学习实训代码 第一关&#xff1a;决策树算法思想 1、下列说法正确的是&#xff1f;&#xff08; AB &#xff09; A、训练决策树的过程就是构建决策树的过程B、ID3算法是根据信息增益来构建决策树C、C4.5算法是根据基尼系数来构建决策树D、决策树模型的可理解性不…

YOLOv9全网最新改进系列::YOLOv9完美融合双卷积核(DualConv)来构建轻量级深度神经网络,目标检测模型有效涨点神器!!!

YOLOv9全网最新改进系列&#xff1a;&#xff1a;YOLOv9完美融合双卷积核&#xff08;DualConv&#xff09;来构建轻量级深度神经网络,目标检测模型有效涨点神器&#xff01;&#xff01;&#xff01; YOLOv9原文链接戳这里&#xff0c;原文全文翻译请关注B站Ai学术叫叫首er …

Docker 的 Busybox 操作系统镜像

BusyBox是一个遵循GPL协议、以自由软件形式发行的应用程序。 Busybox在单一的可执行文件中提供了精简的Unix工具集&#xff0c;可运行于多款POSIX环境的操作系统&#xff0c;例如Linux&#xff08;包括Android&#xff09;、Hurd、FreeBSD等等。 由于BusyBox可执行文件的文件…

石墨烯材料商汉烯科技授权世强硬创,代理产品具备高导热/导电特点

近日&#xff0c;武汉汉烯科技有限公司&#xff08;下称“汉烯科技”&#xff0c;英文&#xff1a;HANXI TECH&#xff09;与世强先进&#xff08;深圳&#xff09;科技股份有限公司&#xff08;下称“世强先进”&#xff09;达成授权代理合作&#xff0c;面向锂电新能源、电子…

【基础技能】Windows常用快捷键

最近做知识管理&#xff0c;梳理了下个人技能&#xff0c;存在好多基础技能都是一知半解&#xff0c;用的时候都是现搜现查&#xff0c;没有形成一个完整的知识体系&#xff0c;导致一些基础不牢靠&#xff0c;需要再次筑基&#xff01; 于是就翻阅了微软的官网&#xff0c;撸…

51单片机GPS+sim800c GSM定位短信LCD1602液晶显示 原理图+PCB+源码

目录 1、实物图 2、原理图 ​3、PCB​编辑 4、程序 资料下载地址&#xff1a;51单片机GPSsim800c GSM定位短信LCD1602液晶显示 原理图PCB源码 1、实物图 2、原理图 3、PCB 4、程序 #include "common.h" #include "uart.h" #include "gps.h&…

简单易懂的HashMap使用指南:从入门到精通

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。运营社区&#xff1a;C站/掘金/腾讯云&#xff1b;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一…

如何查看Spring Boot 默认的数据库连接池类型

使用的Spring Boot的版本&#xff1a;2.3.4.RELEASE 先给出答案&#xff1a;com.zaxxer.hikari.HikariDataSource 怎么知道的呢&#xff1f; 新建一个Spring boot项目&#xff1a;springbootTest 配置pom.xml <dependencies><!-- SpringBoot 核心包 --><de…

【antd + vue】Failed to resolve component: a-select-option

一、问题说明 1、出现情况&#xff1a; <a-select>嵌套<a-select-option>&#xff0c;其中<a-select-option>循环&#xff0c;能正常使用&#xff0c;但是控制台警告。 2、控制台警告&#xff1a; [Vue warn]: Failed to resolve component: a-select-op…

OBS插件--图片或视频源随着声音动态缩放

音效动态调整 应用此插件的源可以根据音效声音的高低进行动态的缩放。在本例中&#xff0c;我们在当前的场景里面添加了一个小喇叭的图片源&#xff0c;在这个图片源上引用这款滤镜插件&#xff0c;然后将VLC视频源的音效用于此插件的音效。设置完成后&#xff0c;场景中的小喇…

HIVE调优-数据倾斜优化(详细版)

HIVE调优-数据倾斜优化 目录 HIVE调优-数据倾斜优化 1.排序优化 1&#xff09;order by 2&#xff09;distribute by sort by 3&#xff09;cluster by语句&#xff1a; 2.数据倾斜优化 1&#xff09;原因&#xff1a; 2&#xff09;表现&#xff1a; 3&#xff09…