作者:李雨晨
《Nature》杂志近日发布消息称,研究人员利用人工智能发现了近6000种未知的病毒。这项工作是在3月15日由美国能源部(DOE)组织的一次会议上提出的,它展示了一种探索地球上巨大而未知的病毒多样性的新工具。
从人类健康到垃圾降解,虽然病毒的影响力十分巨大,但它们却很难被摸透。 科学家们无法在实验室环境中培养大多数病毒,识别其基因序列的尝试也往往无法进行,因为病毒的基因组很小并且进化得很快。
近年来,研究人员通过对来自不同环境的样本进行DNA测序,来寻找未知的病毒。为了识别出现的微生物,研究人员搜索已知病毒和细菌的遗传特征,正如文字处理器的“查找”功能会突出显示文档中包含特定字母的单词。但是这种方法经常失败,因为病毒学家无法搜索他们不知道的东西。
不过,机器学习解决了这个问题,因为它可以发现海量信息中的新兴模式。机器学习算法解析数据,从中学习,然后自主分类信息。
南加州大学洛杉矶分校的计算生物学家Jie Ren表示,“以前,人们没有办法很好地研究病毒,但现在我们有新工具可以找到它们。”
在最近的一项研究中,美国能源部联合基因组研究所(JGI)的计算生物学家 Simon Roux 训练计算机识别不常见的 Inoviridae 病毒家族的基因序列。这些病毒生存在细菌中并改变宿主的行为,例如,它们会使得引起霍乱的霍乱弧菌细菌毒性更强。在加州旧金山召开的会议上,他提出了自己的研究成果。他表示,在他的研究开始之前已经有不到100种基因组被发现。
Roux提出了一种机器学习算法,其中包含两组数据:其中一组含有来自已知的Inoviridae的805个基因组序列,另一个含有来自细菌和其他类型病毒的约2000个基因序列。该算法可以找到区分它们的方法。
接下来,Roux 向模型馈送大量宏基因组学数据集。该计算机回收了超过10000种的Inoviridae基因组,并将其分成不同种类的集群。他说,其中一些集群之间的遗传变异很大,以至于Inoviridae可能有很多家族。
据了解,在另一项研究中,巴西圣保罗大学的生物信息学家Deyvid Amgarten利用机器学习在城市动物园寻找肥料堆中的病毒。他编写了算法来搜索病毒基因组的一些显著特征,例如给定长度的DNA链中的基因密度。训练结束后,计算机复原了几个似乎是新型的基因组,Amgarten表示。他在JGI会议上介绍了他的结果。最后一步是了解这些病毒产生的蛋白质,看看它们中的哪些会加速有机物质分解的速度。“我们想提高肥料的质量。”他说。
Amgarten 是从去年报告的一项机器学习工具即 Ren 的团队开发的 VirFinder 中得到灵感的。VirFinder被设计为寻找 DNA 碱基组合,例如 DNA 双链中的 AT 或 GC。据了解,Ren将该算法应用于健康人和肝硬化患者(一种由肝炎、慢性酒精中毒引起的疾病)的基因组样本。机器将取样的病毒完成了分组之后,该团队注意到样本中某些特定类型的基因组在健康人群中相对更少或更多,这意味着这些基因组相关的病毒可能导致了疾病。
Ren的发现是一个引人注目的发现:生物医学研究人员一直在想,病毒是否会导致一些难以捉摸的症状,如慢性疲劳综合征(也称为肌痛性脑脊髓炎)和炎症性肠病。康涅狄格州法明顿的Jackson基因组医学实验室的免疫学家Derya Unutmaz推测,病毒可能会引发一种破坏性炎症反应,或者他们可能会改变人体微生物群中细菌的行为,反过来会破坏新陈代谢和免疫系统。
Unutmaz说,通过应用机器学习,研究人员可以确定隐藏在患者身上的病毒。此外,由于AI有能力在海量数据集中寻找模式,这种方法也许可以将病毒数据与细菌相关联,然后将症状数据与蛋白质变化联系起来。Unutmaz说,“机器学习甚至可以揭示我们从来没有想过的问题。”
原文地址:https://www.nature.com/articles/d41586-018-03358-3
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”