来源:测序中国
摘要:直接面向消费者(DTC)的基因检测不仅仅是有趣那么简单,它的有用性随着样本数据库的积累,会逐渐显露出来。
消费级基因检测,即直接面向消费者(DTC)的基因检测,除了针对消费者方面的用途,随着DTC基因检测数据库逐渐庞大起来,在人体基因组学研究、药物研发、精准治疗这些医学价值毋庸置疑,在其他领域的价值也会逐渐被探索。
如今,直接面向消费者(DTC)的基因检测已经帮助了很多尝鲜者深入了解了祖源信息,一些服务项目甚至能帮助用户找到他们失散多年的亲人。截至2018年4月,超过1500万人接受了DTC常染色体遗传检测。仅2017年,DTC基因检测公司出售的试剂盒约为700万。目前,几乎所有主要的DTC基因检测公司都使用基因芯片来检测约700,000种基因变异,并允许受试者以纯文本格式下载其原始基因型文件。但是,近日发表在《科学》杂志上的一项新研究表明,无论你最初是否自愿进行过基因检测,那些上传至DTC基因检测数据库的信息都可以用于确认你的身份。
从“金州杀手”案到DTC基因检测数据库
这项研究主要受到近期“金州杀手”案件的启发。
当地时间4月24日,现年72岁的Joseph James DeAngelo因涉嫌在上世纪70到80年代连环杀人,在美国加利福尼亚州萨克拉门托县郊区的住所被警方带走。数十年间,加利福尼亚州曾被一连串奸杀案带来的恐惧笼罩。那个后来以“金州杀手”的名号在美国的犯罪史上留下血腥一笔的凶手,在十年里强奸45名女性,杀害12人。如今,“杀人恶魔”终于落网,而他曾经还是一名警察。
嫌犯的落网得益于先进的DNA技术及谱系数据库。传统的法医学调查主要依赖于将特定的短串联重复序列(又称微卫星DNA)与犯罪嫌疑人DNA进行匹配。但这些DNA片段仅允许警方在严格监管的数据库中识别一个人或他们的近亲。得益于新技术的出现,金州杀手案的调查人员通过犯罪现场留下的DNA分离出遗传物质,并利用DTC基因检测公司的数据库进行了DNA匹配。这些信息以及其他历史记录帮助调查人员创建了嫌疑人及其亲属的家族谱。在对包括DeAngelo在内的嫌疑人进行集中调查后,调查人员从DeAngelo身上收集到了与犯罪现场DNA完全匹配的DNA样本。
嫌犯的落网为跨越数十年的悬案画上了句号。这种新型破案手段的确巧妙,但实际上,这种方法很可能带来更为深远的影响,一些遗传隐私专家也为新技术的使用感到忧虑。这其中便包括MyHeritage公司首席科学官、哥伦比亚大学计算遗传学家Yaniv Erlich。MyHeritage公司成立于以色列,是一家可以提供祖源基因检测的消费级基因检测公司。
在最新发表在《科学》杂志的研究中,Erlic研究团队希望了解,通过远房甚至未知的家庭成员DNA来识别一个人的身份是多么容易。因此,他们对超过120万名在MyHeritage公司进行检测的匿名人士进行了研究,并且特别排除了那些在数据库中有直系亲属的人。这一研究也是为了弄清,一名陌生人的DNA是否真的可以用来破解你的身份。
研究人员发现,数据库中超过一半人群可以匹配到远亲,也就是第三代的表亲或更远房的亲属。对于占样本总数75%的欧洲血统人群,匹配结果的命中率接近60%。有15%左右的人群,研究人员还能匹配到另一名表亲。与“金州杀手”调查人员相似的是,研究团队发现,通过使用这些远亲和其他人口统计的信息,而无需特别具体的信息,他们便可以相对容易地在数据库中追溯到某人的身份,例如目标的年龄或可能的居住地。
研究人员表示,在理论上只需要大约2%成年人在数据库提交DNA信息,就可以追踪到任何人的远亲,进而揭露他们的身份。
在一个具体案例中,研究人员还成功在其他项目中将一位匿名女性的遗传信息进行交叉引用,进而找到了她的身份。这一具体案例与“金州杀手”调查人员所使用的服务网站相同,均为一个名为“GEDmatch”的祖源信息网站。在Erlich的早期的研究中,研究人员就已经可以通过另一种依赖其丈夫的遗传特征的方法识别出这名女性,但新方法则更为容易,所需的前期信息也更少。
2%临界点个人身份或将无所遁形
对于Erlich来说,这些发现既令人欣喜又令人恐惧。
“当然,这是好消息。如果有人触犯了法律,那么执法部门便能抓住他们。但在未来,随着技术的不断发展,可能会有人出于不正当理由使用它。”这即包括可能试图从其他项目中寻找研究对象的科研人员,也包括非法出售个人信息的公司或个人;基因歧视也是另一个潜在的一个隐患。
Erlich表示,目前也有办法阻止DTC基因检测数据库的潜在滥用。对于美国来说,美国卫生和人类服务部(HHS)等机构曾对联邦政府资助的涉及人类受试者的研究制定了相关规定。作为“通用规则”,这些指南的修订版已于2017年在美国开始实施,但直到2019年才会完全生效。虽然目前修改版并不认为我们的基因组是可识别的信息,但Erlich指出,随着技术的进步,HHS很可以会改变这种状态。
此外,DTC基因检测公司也可以采取措施保护消费者。DTC基因检测公司可以使用加密签名对他们发送的原始遗传数据进行加密。如果确认查询来自客户,那么谱系服务将仅通过其数据库运行搜索(作为论文的补充,研究人员已经在GitHub上传了其加密签名的演示源代码)。在理想情况下,执法机构仍然可以访问这些服务,但必须获得明确授权。
在过去的几个月里,美国执法机构已开始利用第三方消费者基因组学服务来追踪嫌犯。“金州杀手”案不是第一个警方通过亲属DNA逮捕嫌犯的案件,在2018年4月至8月期间,警方已经使用这种方法解决了十几个类似的案例。Erlich表示:“在这些具体问题出现之前,我们现在就需要考虑监督和平衡的问题。”
尽管细节还在研究中,但几乎可以肯定的是,我们所有人的遗传信息都需要得到保障,即使你拒绝进行基因检测。因为在理论上,我们可以从未知的DNA样本追踪到任何人的远亲,从而揭露他们的身份。而这只需要在拥有大约2%成年人群遗传信息的数据库中进行分析。我们与这一临界点的距离终将越来越短。
“一旦达到2%,几乎每个人都能匹配到第三代表亲,而相当一部分人能够匹配到第二代表亲”,Erlich解释说,“我的预测是,对于欧洲血统人群,我们将在两三年内达到这个临界值。”
这对每个人意味着什么呢?或许在不远的未来,不管你是否接受过基因检测,在某个地方,总能找到你的基因痕迹,而法律保护和监管也将基因检测的焦点。
参考资料:
1. Ancestry Sites Could Soon Expose Nearly Anyone's Identity, Researchers Say
2. Identity inference of genomic data using long-range familial searches
3. Supercharged crime-scene DNA analysis sparks privacy concerns
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”