Science | 张锋实验室:聚类算法揭示188种新型CRISPR系统

微生物序列数据库包含大量有关酶和其他可用于生物技术的分子的信息。但近年来,这些数据库已经变得非常庞大,以至于很难有效地搜索到感兴趣的酶。

2023年11月23日,博德研究所张锋及美国国立卫生研究院Eugene V. Koonin共同通讯在Science 在线发表题为“Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering”的研究论文,该研究开发了基于位置敏感哈希的快速聚类(FLSHclust)算法,该算法在线性时间内对大量数据集进行深度聚类。

该研究将FLSHclust纳入CRISPR发现管道,并鉴定了188个以前未报道的CRISPR相关基因模块,揭示了许多与适应性免疫相关的其他生化功能。该研究通过实验表征了三种含HNH核酸酶的CRISPR系统,包括第一种具有特定干扰机制的IV型系统,并对它们进行了基因组编辑。该研究还鉴定并表征了一种候选的VII型系统,显示了它对RNA的作用。这项工作为利用CRISPR和更广泛地探索微生物蛋白质的巨大功能多样性开辟了新的途径。

该算法来自CRISPR先驱张锋实验室。他们使用大数据聚类方法来快速搜索海量基因组数据。这些作者利用他们的算法---基于快速位置敏感散列的聚类(Fast Locality-Sensitive Hashing-based clustering, FLSHclust)---分析了三个主要的公共数据库,这些数据库包含来自一系列不同寻常细菌的数据,包括在煤矿、酿酒厂、南极湖泊和狗唾液中发现的细菌。

作者发现,CRISPR系统的数量和多样性都令人惊讶,其中包括可以对人体细胞中的DNA进行编辑的CRISPR系统、可以靶向RNA的CRISPR系统,以及许多具有其他多种功能的CRISPR系统。

与目前的CRISPR/Cas9系统相比,这些新的CRISPR系统有可能被用来编辑哺乳动物细胞,其脱靶效应更少。有朝一日,它们还可以用作诊断工具,或作为细胞内活动的分子记录。

这些作者说,他们的研究凸显了CRISPR系统前所未有的多样性和灵活性,随着数据库的不断扩大,可能还有更多稀有的CRISPR系统有待发现。

张锋说,“生物多样性是一座宝库,随着我们继续对更多的基因组和宏基因组样本进行测序,我们越来越需要更好的工具,比如FLSHclust,来搜索序列空间,以便寻找分子宝石。”

什么是CRISPR?

CRISPR全名为“成簇的、规律间隔的短回文重复序列”,是细菌防御病毒侵入的一种机制。2012年法国科学家埃玛纽埃勒·沙尔庞捷和美国科学家珍妮弗·道德纳发表研究指出,她们开发出CRISPR/Cas9基因编辑技术。这项技术随后成为生物医学史上第一种可高效、精确、程序化修改细胞基因组包括人类基因组的工具。这种技术就是以核糖核酸(RNA)做向导,把Cas9酶带到相应的位置,然后用这种酶切割病毒DNA。

图一:CRISPR基因编辑技术示意图

相比此前的技术,CRISPR/Cas9技术具有成本低、易上手、效率高等优势,使得对基因的修剪改造“普通化”,因此风靡整个生物学界。科学界普遍认为,这是21世纪以来生物技术方面最重要的突破。这一技术曾三度入围美国《科学》杂志年度十大突破,并且在2015年被该杂志评为年度头号突破。

就像在科学领域时常发生的“偶然”那样,“基因剪刀”的发现过程也出乎意料。沙尔庞捷在研究化脓性链球菌时,发现了一种未知分子——tracrRNA。她的研究显示,tracrRNA是细菌的古老免疫系统“CRISPR/Cas”的一部分,能够通过切割病毒的DNA来使病毒“缴械”,从而消除其危害。

沙尔庞捷2011年发表了上述研究成果。同年,她与道德纳开始合作研究。在一次具有划时代意义的实验中,她们对“基因剪刀”进行改造。在天然形式下,这种“剪刀”能够识别出病毒中的DNA。但是沙尔庞捷和道德纳发现能对“剪刀”施加控制,这样一来就能在任何预先设定的位置切割任何DNA分子。一旦DNA被切割,那么重写生命的密码就变得简单了。

此后,“基因剪刀”技术的利用次数呈爆炸性增长。在基础科研领域,随着这一技术的应用,涌现出很多重大成果。例如植物研究者开发出能够耐霉菌、害虫和干旱的作物;在医学领域,与该技术相关的癌症新疗法临床试验正在开展,治愈遗传性疾病有望成为现实。

开发新算法寻找CRISPR

在张锋等人的这项研究中,为了从蛋白和核酸序列数据库中挖掘新型CRISPR系统,他们借鉴大数据领域的一种方法,开发了一种算法。它将相似但不完全相同的对象聚类在一起。

图二:FLSHclust探寻新的CRISPR-Cas系统的示意图

通过使用这种方法,作者可以在几周内探查数十亿个蛋白和DNA序列---这些序列来自NCBI、全基因组鸟枪数据库(Whole Genome Shotgun database)和联合基因组研究所(Joint Genome Institute),而以前寻找相同对象的方法需要几个月的时间。他们设计的算法旨在寻找与CRISPR相关的基因。

论文共同第一作者Soumya Kannan说,“这种新算法允许我们在足够短的时间内解析数据,从而可以实际恢复结果并提出生物学假设。”另一名论文共同第一作者为来自张锋实验室的Han Altae-Tran。

Altae-Tran说,“这证明了当你改进探索方法并使用尽可能多的数据时,你能做什么。能够提高我们搜索的规模,这真地很令人兴奋。”

新的CRISPR系统

在分析过程中,Altae-Tran、Kannan 和他们的同事们注意到,他们发现的数千个 CRISPR 系统分为几个现有类别和许多新类别。他们在实验室中对其中的几个新的CRISPR系统进行了更详细的研究。

他们发现了已知 I 型 CRISPR 系统的几种新变体,它们使用 32bp长的向导RNA(gRNA),而CRISPR/Cas9系统使用20 bp长的gRNA。由于具有较长的gRNA,这些 I 型CRISPR系统有可能被用于开发更精确而不易发生脱靶编辑的基因编辑技术。

张锋实验室发现其中的两种CRISPR系统可以对人类细胞的DNA进行较短的序列编辑。由于这些I型CRISPR系统的大小与CRISPR/Cas9系统相似,因此它们很可能可以用目前用于CRISPR的基因递送技术递送到动物或人类的细胞中。

其中的一种 I 型CRISPR系统还显示出“附带活性”---CRISPR 蛋白结合靶序列后,核酸会被广泛降解。科学家们已经用类似的系统制造出了传染病诊断仪,如SHERLOCK,这是一种能够快速检测单个DNA或RNA分子的工具。Zhang实验室认为,这些新的CRISPR系统也可能用于诊断技术。

这些作者还发现了一些IV型CRISPR系统的新作用机制,以及一种精确靶向RNA的VII型CRISPR系统,因此该VII型CRISPR系统有可能用于RNA编辑。其他的CRISPR系统有可能被用作记录工具---基因表达的分子记录,或用作活细胞中特定活动的传感器。

图三:新的聚类算法发现数百个罕见的以前未被发现的CRISPR系统,具有敏感的,可扩展的CRISPR关联管道。

利用新算法进行数据挖掘

这些作者说,他们的算法可能有助于寻找其他生化系统。Altae-Tran 说,“任何想利用这些大型数据库研究蛋白如何进化或发现新基因的人都可以使用这种搜索算法。”

他们补充说,他们的发现不仅说明了CRISPR系统的多样性,还说明了大多数CRISPR系统是罕见的,只存在于不常见的细菌中。

Kannan说,“其中的一些微生物CRISPR系统只存在于煤矿的水中。如果不是有人对此感兴趣,我们可能永远都不会看到这些CRISPR系统。扩大我们的取样多样性对于继续扩大我们所能发现的CRISPR系统多样性确实非常重要。”

图四:本研究鉴定的CRISPR新系统之一(CRISPR-Cas效应模块)。 

研究展望

目前,CRISPR/Cas9技术正在不断革新基因组编辑领域。它能够实现高度灵活性和特异性靶向性,可进行修饰和重定向,成为了干细胞工程、基因治疗、组织和动物疾病模型以及设计抗病转基因植物等广泛应用中的强大基因组编辑工具。

麻省理工学院教授、博德研究所研究员张锋

通讯作者之一,NIH生信专家Eugene V. Koonin博士

CRISPR/Cas9被归类为CRISPR系统中的II型。实际上,这只是其中的一种类型——目前研究人员已经确定了六种类型的CRISPR系统,命名为I-VI型,它们有不同的特性,包括它们使用的酶的类型以及如何识别、结合和切割RNA或DNA。

而此次新发现的CRISPR类型的特征可以用于其他应用,并有可能改编成最新的基因组编辑工具。

新西兰达尼丁奥塔哥大学生物化学家克里斯·布朗(Chris Brown)认为,这种算法本身是一个重大进展,研究人员可以用它来寻找不同物种中的其他类型的蛋白质,他表示“我非常敬佩他们能做到这一点”。

“这是生物化学家的宝库。”对于新发现的VII型CRISPR系统,德国马尔堡大学的微生物学家伦纳特·兰道(Lennart Randau)提到,“下一步将是研究这些酶和系统是如何工作的,以及它们如何被改造用于生物工程。某些CRISPR蛋白质会随机切割DNA,对生物工程毫无用处,但它们在检测DNA或RNA序列方面非常精确,可能会成为很好的诊断或研究工具。”

可以说,CRISPR新类型的发现,对基因工程来说意义重大。

小结

在最新一期《Science》杂志上,MIT和Broad研究所的张锋教授团队与美国国立卫生研究院的Eugene Koonin教授合作,借助其开发的全新算法,从数十亿个蛋白质序列中发现了188个此前未知的新型CRISPR相关系统,并且可能将CRISPR系统的类型拓展至7大类。这一发现进一步证实CRISPR系统的多样性,并且有望带来新型基因编辑工具。

FLSHclust是一种基于序列相似性,利用大数据对蛋白质进行聚类的算法。FLSHclust可以对公开数据库中的基因序列进行分析,这些数据包含了收集自南极湖泊、狗的唾液、啤酒厂等广泛来源的细菌与古菌。最终的数据库包括80亿个蛋白和1020万个CRISPR阵列。通过寻找相似但不完全相同的序列,研究将其分为约5亿个簇,从宏基因组数据库中寻找CRISPR相关基因。

参考资料:

Han Altae-Tran et al. Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering. Science, 2023, doi:10.1126/science.adi1910.
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/203966.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件测试外包干了2个月,技术进步2年。。。

先说一下自己的情况,本科生,18年通过校招进入北京某软件公司,干了接近2年的功能测试,今年国庆,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了2年的功能测试&…

01_W5500简介

目录 W5500简介: 芯片特点: 全硬件TCPIP协议栈: 引脚分布: W5500简介: W5500是一款高性价比的以太网芯片,其全球独一无二的全硬件TCPIP协议栈专利技术,解决了嵌入式以太网的接入问题,简单易用&#xff…

学习Python的未来前景分析

文章目录 前言学python可以干什么如果具备Python编程,能用Python做什么:学Python语言能干什么1.常规软件开发2.科学计算3.自动化运维4.云计算 学python编程对未来的影响关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Py…

外包干了3个月,技术倒退2年。。。

先说情况,大专毕业,18年通过校招进入湖南某软件公司,干了接近6年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…

SAP 工序委外简介

在SAP系统中,外部加工分为工序委外和标准委外两种,对于工序委外,它存在于很多的模块中,在PP、PM、PS等模块中都有应用。 工序委外中字面理解就是在生产过程中,加工的某道工序需要外发给供应商进行加工,物权没有发生转变,只是支付给供应商相应是加工费用,实际加工成本最终…

matlab 最小二乘拟合空间直线(方法二)

目录 一、算法原理1、算法过程2、参考文献二、代码实现三、结果展示四、相关链接本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理

keil软件注释显示中文字符乱码的问题

打开Edit选项,设置Encoding为 UTF-8字符编码即可。

异常(C++)

异常 前言一、程序的错误分类二、异常1. 概念2. 捕获异常的关键字和格式3. 异常的使用异常的原则异常再抛出异常说明注意事项 4. 自定义异常体系5. C标准库的异常体系 三、总结 前言 在程序运行时经常碰到一些错误,例如年龄、身高不能为负,除数为0等&…

sql注入 [GXYCTF2019]BabySQli1

打开题目 多次尝试以后我们发现存在一个admin的账号,但是密码我们不知道 我们尝试一下万能密码 admin or 11 -- q 报错 我们尝试bp抓一下包看看 看着很像编码 先去base32解码 再base64解码 得到 我们从这个sql语句中得到注入点为name 根据报错信息我们知道是…

网络安全(一)--网络环境构成,系统的安全

2. 网络攻防环境 目标 了解攻防环境构成了解入侵检测系统(平台)的部署位置 2.1. 环境构成 2.1.1. 环境框图 一个基本的网络攻防实验环境包括:靶机、攻击机、入侵检测分析系统、网络连接四部分组成。 一个基础的网络攻防实验环境需要如下…

阿里云租赁费用_阿里云服务器多配置报价表

阿里云服务器租用费用,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、轻量应用服务器2核2G3M带宽轻量服务器一年87元,2核4G4M带宽轻量服务器一年165元12个月,ECS云服务器e系列2核2G配置99元一年、2核4G配置365元一年、2核8G配置522元一年…

Git多人协作(一)

个人主页:Lei宝啊 愿所有美好如期而遇 前言 由于博主是一个人,所以博主为完成这篇文章,在Linux下克隆了一个仓库,在windows下克隆了一个仓库,以此来模拟多人协作开发。而实际开发中,每个人都有自己的git…

【CSP】202305-1_重复局面Python实现

文章目录 [toc]试题编号试题名称时间限制内存限制题目背景问题描述输入格式输出格式样例输入样例输出样例说明子任务提示Python实现 试题编号 202305-1 试题名称 重复局面 时间限制 1.0s 内存限制 512.0MB 题目背景 国际象棋在对局时,同一局面连续或间断出现3次或3…

python3安装lifelines

目录 一、环境 二、安装lifelines 出现问题 三、测试导入 一、环境: jupyter notebook中新建ipynb文件 二、安装lifelines pip install --upgrade --no-deps githttps://github.com/CamDavidsonPilon/lifelines.git出现问题: 缺少模块autograd、f…

sqlite3.44.2的编译

文章目录 sqlite3.44.2的编译概述笔记解决shell.c编译报错的方法整理 - 正常可用的编译脚本过程剩下的事情验证编译出的输出是否可以给工程正常使用?END sqlite3.44.2的编译 概述 想从源码编译一份Sqlite3.44.2出来. 编译sqlite3.44.2前置需要的TCL环境已经编译出来到了, 做…

学习Python能给我们带来什么?有什么帮助?

文章目录 前言学习Python能做什么1、抓取各类数据、文本等信息2、批量清洗和处理数据3、提供可视化工具4、进行深度学习 Python的用途有哪些普通人学习python有什么好处关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python…

Linux挂载配置本地yum源

1.vi /etc/yum.repos.d/redhat.repo 2. [baseos] namebaseos baseurlfile:///mnt/BaseOS #enabled:默认为1 enabled1 gpgcheck0 [appstream] nameappstream baseurlfile:///mnt/AppStream enabled1 gpgcheck0 3. mount /dev/sr0 /mnt/ 4.yum clean all 5.yum makecache

神秘鸭是如何让你的手机控制你的电脑的?

神秘鸭 神秘鸭即是一个应用,它能让手机语音助手、智能音箱变的更为强大!通过神秘鸭,您的手机语音助手、智能音箱可以用来控制电脑、智能家居、DIY的物联网设备。 支持的手机、平板品牌 Apple 华为 小米 三星 OPPO VIVO 一加 当然不代表仅支…

SpringBoot 知识梳理

学习目标 掌握基于 SpringBoot 框架的程序开发步骤熟练使用基于 SpringBoot 配置信息修改服务器配置基于 SpringBoot 的完成 SSM 整合项目开发 1 SpringBoot 简介 1.1 入门案例 1.1.1 步骤 ① :创建新模块,选择 Spring 初始化,并配置模块…

Doris 编译报错 Error: flex version (2.5.37) must be greater than or equal to 2.6.0

Doris 编译过程报错 Error: flex version (2.5.37) must be greater than or equal to 2.6.0yum update flex 不生效 下载flex 安装包 https://github.com/westes/flex/releases解压 tar -xvf flex-2.6.4.tar