Science:若DTC基因检测达2%成年人群,几乎所有人的身份或将无所遁形

640?wx_fmt=jpeg

源:测序中国

摘要:直接面向消费者(DTC)的基因检测不仅仅是有趣那么简单,它的有用性随着样本数据库的积累,会逐渐显露出来。


消费级基因检测,即直接面向消费者(DTC)的基因检测,除了针对消费者方面的用途,随着DTC基因检测数据库逐渐庞大起来,在人体基因组学研究、药物研发、精准治疗这些医学价值毋庸置疑,在其他领域的价值也会逐渐被探索。


如今,直接面向消费者(DTC)的基因检测已经帮助了很多尝鲜者深入了解了祖源信息,一些服务项目甚至能帮助用户找到他们失散多年的亲人。截至2018年4月,超过1500万人接受了DTC常染色体遗传检测。仅2017年,DTC基因检测公司出售的试剂盒约为700万。目前,几乎所有主要的DTC基因检测公司都使用基因芯片来检测约700,000种基因变异,并允许受试者以纯文本格式下载其原始基因型文件。但是,近日发表在《科学》杂志上的一项新研究表明,无论你最初是否自愿进行过基因检测,那些上传至DTC基因检测数据库的信息都可以用于确认你的身份。


640?wx_fmt=jpeg


从“金州杀手”案到DTC基因检测数据库


这项研究主要受到近期“金州杀手”案件的启发。


当地时间4月24日,现年72岁的Joseph James DeAngelo因涉嫌在上世纪70到80年代连环杀人,在美国加利福尼亚州萨克拉门托县郊区的住所被警方带走。数十年间,加利福尼亚州曾被一连串奸杀案带来的恐惧笼罩。那个后来以“金州杀手”的名号在美国的犯罪史上留下血腥一笔的凶手,在十年里强奸45名女性,杀害12人。如今,“杀人恶魔”终于落网,而他曾经还是一名警察。


嫌犯的落网得益于先进的DNA技术及谱系数据库。传统的法医学调查主要依赖于将特定的短串联重复序列(又称微卫星DNA)与犯罪嫌疑人DNA进行匹配。但这些DNA片段仅允许警方在严格监管的数据库中识别一个人或他们的近亲。得益于新技术的出现,金州杀手案的调查人员通过犯罪现场留下的DNA分离出遗传物质,并利用DTC基因检测公司的数据库进行了DNA匹配。这些信息以及其他历史记录帮助调查人员创建了嫌疑人及其亲属的家族谱。在对包括DeAngelo在内的嫌疑人进行集中调查后,调查人员从DeAngelo身上收集到了与犯罪现场DNA完全匹配的DNA样本。


嫌犯的落网为跨越数十年的悬案画上了句号。这种新型破案手段的确巧妙,但实际上,这种方法很可能带来更为深远的影响,一些遗传隐私专家也为新技术的使用感到忧虑。这其中便包括MyHeritage公司首席科学官、哥伦比亚大学计算遗传学家Yaniv Erlich。MyHeritage公司成立于以色列,是一家可以提供祖源基因检测的消费级基因检测公司。


在最新发表在《科学》杂志的研究中,Erlic研究团队希望了解,通过远房甚至未知的家庭成员DNA来识别一个人的身份是多么容易。因此,他们对超过120万名在MyHeritage公司进行检测的匿名人士进行了研究,并且特别排除了那些在数据库中有直系亲属的人。这一研究也是为了弄清,一名陌生人的DNA是否真的可以用来破解你的身份。


研究人员发现,数据库中超过一半人群可以匹配到远亲,也就是第三代的表亲或更远房的亲属。对于占样本总数75%的欧洲血统人群,匹配结果的命中率接近60%。有15%左右的人群,研究人员还能匹配到另一名表亲。与“金州杀手”调查人员相似的是,研究团队发现,通过使用这些远亲和其他人口统计的信息,而无需特别具体的信息,他们便可以相对容易地在数据库中追溯到某人的身份,例如目标的年龄或可能的居住地。


研究人员表示,在理论上只需要大约2%成年人在数据库提交DNA信息,就可以追踪到任何人的远亲,进而揭露他们的身份。


在一个具体案例中,研究人员还成功在其他项目中将一位匿名女性的遗传信息进行交叉引用,进而找到了她的身份。这一具体案例与“金州杀手”调查人员所使用的服务网站相同,均为一个名为“GEDmatch”的祖源信息网站。在Erlich的早期的研究中,研究人员就已经可以通过另一种依赖其丈夫的遗传特征的方法识别出这名女性,但新方法则更为容易,所需的前期信息也更少。


2%临界点个人身份或将无所遁形


对于Erlich来说,这些发现既令人欣喜又令人恐惧。


“当然,这是好消息。如果有人触犯了法律,那么执法部门便能抓住他们。但在未来,随着技术的不断发展,可能会有人出于不正当理由使用它。”这即包括可能试图从其他项目中寻找研究对象的科研人员,也包括非法出售个人信息的公司或个人;基因歧视也是另一个潜在的一个隐患。  


Erlich表示,目前也有办法阻止DTC基因检测数据库的潜在滥用。对于美国来说,美国卫生和人类服务部(HHS)等机构曾对联邦政府资助的涉及人类受试者的研究制定了相关规定。作为“通用规则”,这些指南的修订版已于2017年在美国开始实施,但直到2019年才会完全生效。虽然目前修改版并不认为我们的基因组是可识别的信息,但Erlich指出,随着技术的进步,HHS很可以会改变这种状态。


此外,DTC基因检测公司也可以采取措施保护消费者。DTC基因检测公司可以使用加密签名对他们发送的原始遗传数据进行加密。如果确认查询来自客户,那么谱系服务将仅通过其数据库运行搜索(作为论文的补充,研究人员已经在GitHub上传了其加密签名的演示源代码)。在理想情况下,执法机构仍然可以访问这些服务,但必须获得明确授权。


在过去的几个月里,美国执法机构已开始利用第三方消费者基因组学服务来追踪嫌犯。“金州杀手”案不是第一个警方通过亲属DNA逮捕嫌犯的案件,在2018年4月至8月期间,警方已经使用这种方法解决了十几个类似的案例。Erlich表示:“在这些具体问题出现之前,我们现在就需要考虑监督和平衡的问题。”


尽管细节还在研究中,但几乎可以肯定的是,我们所有人的遗传信息都需要得到保障,即使你拒绝进行基因检测。因为在理论上,我们可以从未知的DNA样本追踪到任何人的远亲,从而揭露他们的身份。而这只需要在拥有大约2%成年人群遗传信息的数据库中进行分析。我们与这一临界点的距离终将越来越短。


“一旦达到2%,几乎每个人都能匹配到第三代表亲,而相当一部分人能够匹配到第二代表亲”,Erlich解释说,“我的预测是,对于欧洲血统人群,我们将在两三年内达到这个临界值。”


这对每个人意味着什么呢?或许在不远的未来,不管你是否接受过基因检测,在某个地方,总能找到你的基因痕迹,而法律保护和监管也将基因检测的焦点。


参考资料:


1. Ancestry Sites Could Soon Expose Nearly Anyone's Identity, Researchers Say


2. Identity inference of genomic data using long-range familial searches


3. Supercharged crime-scene DNA analysis sparks privacy concerns


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

降维算法学习

降维的动机 首先,让我们谈论降维是什么。作为一种生动的例子,我们收集的数据集,有许多, 许多特征,我绘制两个在这里。 假设我们未知两个的特征 x1:长度:用厘米表示;X2,是用英寸表示同一物体的长度。 所以,这给了我们高度冗余表示,也许不是两个分开的特征 x1 和 X2,这两个…

年龄大了学Java是爱好还是转型?

年龄大了学Java是爱好还是转型? 一、前言 35岁,好像年龄也不小了,工作也有十年多了,一直搞编程,也已经做过几年研发管理。较多使用的是Delphi语言,对这门语言曾经一度的情有独钟。那是我十年前的一…

人类为什么更聪明 | 人脑神经元关键结构差异被揭示

来源:DeepTech深科技人脑中,数以千计的神经元间电信号交替传送不断,而长短不一的树突(神经元胞体延伸)在神经元信息整合中起到了关键作用,由此我们的大脑细胞才能正常反应运作。而这次,MIT 的神…

机器学习之异常检测

问题的动机 什么是异常检测呢?为了解释这个概念,让我举一个例子吧: 假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行 QA (质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎 运转时产生的热量,或者引擎的振动等等。…

美国《科技与未来城市报告》对中国智慧城市建设的启示

作者:王波、甄峰、卢佩莹来源:科技导报在全球范围内,美国一直引领信息通信技术等科技领域的发展。2008 年全球金融危机后,美国IBM 公司在《智慧地球:下一代领导人议程》主题报告中首次提出“智慧地球”理念&#xff0c…

SVM实现邮件分类

首先学习一下svm分类的使用。 主要有以下步骤: Loading and Visualizing DatajTraining Linear SVM Implementing Gaussian KernelTraining SVM with RBF Kernel 选择最优的C, sigma参数 画出边界线 线性keneral实现 C 1; model svmTrain(X, y, C, linear…

机器学习之推荐系统

我们从一个例子开始定义推荐系统的问题。 假使我们是一个电影供应商,我们有 5 部电影和 4 个用户,我们要求用户为电影打分。 基于内容的推荐系统 在一个基于内容的推荐系统算法中,我们假设对于我们希望推荐的东西有一些数据,这 些数据是有关这些东西的特征。 在我们的例子…

低潮过后,未来医疗可穿戴市场将如何发展?

来源:资本实验室在过去几年中,以智能手表为代表的可穿戴设备市场从快速爆发,并吸引全球厂商趋之若鹜;到如今平缓发展,众多厂商黯然离场,经历了一轮过山车般的炒作周期。但可穿戴设备市场难道只是看上去很美…

大规模机器学习

如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应 该怎样应对一个有 100 万条记录的训练集? 以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和, 如果我们的学习算法需要有 20 次迭代,这便已经是非常大的计算代价。 …

中国半导体:存储器能否打破海外垄断?

来源:中金公司摘要:根据WSTS的统计,全球存储器行业营收2017年达到1319亿美元,占半导体行业收入的30.1%,过去五年(2012-2017)年复合增长率高达37%。▌全球市场概览:千亿美金市场,寡头竞争,IDM模式…

hdu 4588 Count The Carries

思路:容易发现二进制表示的数的最低位规律是01010101……;接着是001100110011……;接着是:0000111100001111…… 这样我们发现每一位的循环节是2^(i1),前2^i是0,后面的是1.这样就可以算出每一位1出现的次数…

数字图像处理入门

图像是指能在人的视觉系统中产生视觉印象的客观对象,包括自然景物、拍摄到的图片、用数学方法描述的图形.图像的要素有儿何要素〈刻画对象的轮廓、 形状等〉和非几何要素(刻画对象的颜色、 材质等〉。 什么是数字图像 简单地说, 数字图像就…

马化腾六年后知乎再提问:未来十年哪些基础科学突破会影响互联网科技产业?...

来源:量子位“未来十年哪些基础科学突破会影响互联网科技产业?产业互联网和消费互联网融合创新,会带来哪些改变?”昨天午夜时分,一个新问题出现在知乎。略微不同之处在于,这个问题的提出者ID是ponyma&#…

2018 中国开源年度报告发布,阿里系独占鳌头

来源:网络大数据摘要:指南针团队使用网络爬虫与 GitHub 数据 API 获取开源代码库的数据如原代码、项目信息、项目的静态信息如项目名称、起始日期等、与动态信息如fork数、客户给与的星数等众多项目相关的信息储存在本地数据结构中。第二篇 数据篇2.1 指…

图像处理中的matlab使用

图像的矩阵表示 类和图像类型 虽然使用的是整数坐标, 但 MATLAB 中的像素值(亮度)并未限制为整数。 表 1-1 列出了 MATLAB 和图像处理工具箱为描述像素值而支持的各种类。 表中的前 8 项是数值型的数据类,第 9 项称为字符类&…

AI洞观 | 一文读懂2018安博会四大趋势

来源: 网易智能10月23-26日,2018年安博会在北京顺义举行。这是全球规模最大,最具影响力的安防展会之一,据安博会官方介绍,本次展会总面积超过10万平方米,展位数突破5000个,云集了国内外上千家安…

图像的点运算

对于一个数字图像处理系统来说, 一般可以将处理流程分为3个阶段。在获取原始图像 后, 首先是图像预处理阶段, 其次是特征抽取阶段,最后才是识别分析阶段。预处理阶段尤 为重要, 这个阶段处理不好则直接导致后面的工作…

量子计算技术发展迅猛,商业潜力初现!如何把握量子计算时代的新机遇?

来源:蓝驰创投编译:全球君摘要:通用量子计算机一旦实现,将对通信安全、导航、成像以及人工智能、生物制药、新材料研发等诸多领域产生颠覆性影响,带来国家安全和社会经济发展的极大变革。通用量子计算机一旦实现&#…

分段线性变换与直方图修正

本文主要包括以下内容 分段线性变换两种实用的直方图修正技术:直方图均衡化和直方图规定化本章的典型案例分析 基于直方图均衡化的图像灰度归一化直方图匹配 分段线性变换 分段线性变换有很多种, 包括灰度拉伸、 灰度窗口变换等, 本节仅讲述最为常用…

图像的几何变换

包含相同内容的两幅图像可能由于成像角度、透视关系乃至镜头自身原因所造成的几何失 真而呈现出截然不同的外观,这就给观测者或是图像识别程序带来了困扰。通过适当的几何变 换可以最大程度地消除这些几何失真所产生的负面影响,有利于我们在后续的处理…