分享

Cell | 以色列Uri Gophna等描述全球RNA病毒组全景

 宏基因组 2022-10-15 发布于北京

全球RNA病毒组的扩展揭示出新的进化分支

Expansion of the global RNA virome reveals diverse clades of bacteriophages

Research article,2022年9月28日,Cell,[IF 66.850]

DOI:10.1016/j.cell.2022.08.023

原文链接:https:///10.1016/j.cell.2022.08.023

第一作者:Uri Neri

通讯作者:Uri Neri, Valerian V. Dolja, Nikos C. Kyrpides, Eugene V. Koonin, Uri Gophna

主要单位:

特拉维夫大学  Shmunis 生物医学与癌症研究学院(第一单位)

美国国家生物技术信息中心

能源部联合基因组研究所

俄勒冈州立大学 植物学和植物病理学系

- 摘要 -

高通量RNA测序为探索地球RNA病毒组提供了广泛的机会。通过挖掘分析5150个不同的宏转录组数据,发现了至少250万个RNA病毒contigs。对超过330,000种特异性RNA聚合酶(RdRP)的分析表明,这种方法能够增加现有已知RNA病毒5倍的多样性。基因含量分析揭示了以前在RNA病毒中没有发现的多个蛋白质结构域,并且与病毒-宿主相互作用有关。扩展的RdRP系统发育支持五个已建立的门的单系,并揭示了两个潜在的噬菌体门和许多的纲和目。急剧扩张的Lenarviricota门现在占RNA病毒组的三分之一,它们中有大量的可感染细菌和真核生物病毒。CRISPR间隔物匹配和细菌溶解蛋白的鉴定表明,与真核生物相关的小双核糖核酸病毒(picobirnaviruses)和单胞病毒(partitiviruses)亚群同样可以感染原核生物宿主。

- 引言 -

病毒是专性寄生于细胞内的生物,也被认为是地球上数量最多的生物实体。从历史上看,只有引起人类,牲畜和作物疾病的病毒以及模型细菌病毒(噬菌体)被详细研究过。通过基因组测序和宏基因组学,能够提升对宏基因组学在病毒发现中的作用,国际病毒分类委员会(ICTV)批准在宏基因组序列分析

与DNA病毒相比,RNA病毒在微生物生态系统中的多样性和作用知之甚少。最近,宏转录发现了大量以前未检测到的RNA病毒。特别是,对无脊椎动物转录组的分析使已知的RNA病毒数量增加了一倍,进而通过从单个位点分析宏病毒组中的RNA序列,进一步扩大了2倍的RNA病毒数量,这意味着一个巨大的、几乎采样的全局RNA病毒组。真菌转录组、各种类型土壤的宏转录组,以及水环境中RNA噬菌体均可识别并发现未知的RNA病毒。

除δ病毒外,所有RNA病毒共享一个单一的标志性蛋白质,即RNA依赖性RNA聚合酶(RdRP)。因此,对RNA病毒的多样性和进化的研究很大程度上可以依靠RdRP的检测和分析。尽管由于RdRP序列的极度分化,其系统发育树中最深的分支的可信度较低,但确定了五个分离良好的主要分支,包括核糖病毒域(Riboviria)的正核糖病毒界(Orthornavirae)。

显然,对来自不同栖息地和宿主的RNA病毒基因组进行广泛的探索调研对于了解RNA病毒的进化至关重要。在这里,通过对各种环境中的5,150个宏转录组的分析,作者将RNA病毒的多样性(种属水平)从13,282扩展到124,873个不同的簇。作者确定了两个候选的额外门和许多暂定的纲、目和科。这些包括未曾报道过的可能感染细菌的谱系。此外,作者报告了多个蛋白质结构域,其中一些可能具有对抗细菌抗病毒系统的功能

- 结果 -

1. 从不同的转录组中鉴定RNA病毒

Identification of RNA viruses from diverse metatranscriptomes

在本研究中,作者设计了一个用于RNA病毒检测的计算方法,适用于分析数千个宏转录组(图1)。简而言之,首先,通过将宏转录组重叠群与一组不同的DNA基因组和宏基因组进行比较,过滤掉可能由DNA实体编码的序列。过滤后的序列集(初始序列集的<1%)被用来迭代搜索假定的RNA病毒。在5,150个宏转录组中,有3,598个包含一个或多个编码完整的RdRP。然后,作者使用这些RdRP contigs作为目标来识别其他宏转录组中的与RdRP contigs(包括在RdRP区域之外)具有高度相似性的contigs。总共鉴定了2,658,344个RNA病毒重叠群,并补充了已发表的27,984个RdRP序列(图1A)。其中,348,762 个重叠群表示长度为 ≥1 kbp 的非冗余序列集。这些被分组为124,743个簇,他们共享90%的平均核苷酸相似度(RNA病毒ANI90集群[以下简称RvANI90]),其中只有13,308(10.7%)包含至少一个已知(或已报道)的序列,通过这种方法获得的RNA病毒组多样性水平大约相当于目前已知的全球RNA病毒组的9倍

图1:RNA病毒的识别方法与流程

(A)识别流程;

(B)RvANI90稀疏曲线:唯一簇的累计作为分析样品的数量的函数(GOLD field—ITS.PIDs)。这些值是通过bootstrap方法获得的;半透明段表示在 25 个随机子采样中测量的唯一RvANI90聚类的范围。中心线表示25个随机样本的平均值。颜色代表不同的环境类型(右图);

(C) RCR90簇(左)和RvANI90(右)的数量,其成员要么完全是“参考”(仅来自“参考集”),要么是“新颖的”(仅在分析的宏转录组中),要么是“共享”(包含于上述两个数据库)。

RNA病毒序列簇按大小显示幂律分布,以小簇为主,长尾是大簇,最大的簇包括429个重叠群。根据积累曲线,在RvANI90水平上评估的RNA病毒的全球多样性没有显示出饱和的迹象(图1B),在土壤环境中具有特别高的丰富度(图1B)。大约5.8%的RdRP contigs显示出利用替代遗传密码的证据(图2),约0.5%显示出RdRP内保守基序(域排列)的基序(图2)。

图2:全球RNA病毒圈的系统发育重建

RdRP 系统发育树使用逆转录酶作为参照,可视化采用ggtree和 ggtreeExtra。系统发育树上的分支被涂成黑色,除非它们的任何子节点至少包含来自“参考集”(青色)的一个序列。星标表示表示改病毒具有原核宿主- 蓝色表示CRISPR-spacer和红色表示具有溶菌结构域。绿色弧线表示在 ≥ 50%的序列中具有替代遗传密码的分支。橙色弧线表示在RdRPs中具有 ≥ 50%的基序置换。5个已建立的RNA病毒门和本研究提出的候选门p.0002在文本和最外层环的柱状图中都进行了颜色标识,系统发育树的尖端代表了每个RCR90簇观察到的最大基因组长度。

2. RdRP系统发育和RNA病毒多样性

RdRP phylogeny and major expansion of RNA virus diversity

为了构建全球尺度的RNA病毒系统发育,作者首先收集了全长RdRP核心结构域序列,并在90%氨基酸相似度阈值(PCR90 set)下对其进行聚类,获得了77,510个代表序列。即使降低到RCR90粒度,该集合仍然太大且多样化,无法直接用于多序列比对和系统发育分析。因此,作者采用了一个迭代过程,其中使用序列簇对齐的共识对齐来重建树。由此产生的RdRP树包含77,520个代表性序列(77,510个RCR90序列和10个逆转录酶[RTs]作为外类群;图 2)。尽管通过这种方法能够显著的扩大病毒的类别,但先前建立的5个门在很大程度上仍然是单系的。此外,该树包括Kitrinoviricota门下的两个组,作者也对其进行了详细分析。

RdRP树中主要分支的单系,特别是5个病毒门,通过重抽样进行了验证。反复随机抽取病毒家族的代表,从每个样品的多重比对中重建系统发育树,追踪门分支的位置,并计算其单系的定量测量值。在大多数样品中,5个门在很大程度上保持单系。倾向于打破门级单系的序列形成了一个明显偏倚的子集,而其中Flasuviricetes非常与众不同。在这项工作中,Flasuviricetes被放置在Pisuviricota门内,而在以前的分析中,它是Kitrinoviricota门的分支。然而,黄病毒在树中的位置不一致表明它们的系统发育位置仍然不确定。Reoviridae, Picobirnaviridae, Cystoviridae和几个候选科也经常脱离各自的门,并且系统发育树将PicobirnaviridaeCystoviridae科置于Pisuviricota

比较当前 RdRP 和先前报告的系统发育树发育深度,通过总分支长度(TBL)计算得出大约扩大了5倍的全球RNA病毒组。为了将RdRP系统发育转化为的分类方案,作者开发了一种半定量方法,用于根据相邻的成熟分类群将分类等级分配给未分类的节点。分类群被指定为等级,并分别以p, c, o, f和g为前缀,表示门,纲,目,科和属,然后是该等级的拟议分类群的序号。与先前描述一致的分类群以“base”标识,例如f.0127.base-Noda是RdRP树中第127个新科与Nodaviridae病毒具有一致的系统发育过程和命名。

与最新的RNA病毒组分析结果相比,在以往的门水平下本研究获得了大约5倍的扩张。然而,必须强调的是,作者的计算和研究并没有包括自开展分析以来发表的两项大规模RNA病毒调查的结果的情况下获得的(详见研究局限性分析部分)。

当按门进行比较时,扩充最大的门是Lenarviricota,其次是KitrinoviricotaPisuviricota。相比之下,只有少数分类群被添加到DuplornaviricotaNegarnaviricota(图2)。

除了RdRP系统发育树中反映的扩展外,通过基于RdRP的搜索在这项工作中鉴定出的一些RNA病毒(39,000个重叠群,形成24,742个RvANI90簇)从系统发育分析中被丢弃,是由于其边界和核心RdRP结构域的一些基序无法被可靠地识别。 

3. 潜在的附加病毒门和纲

Putative additional phyla and classes

由于目前ICTV没有关于RNA病毒门和纲分类的官方指导,作者选择了适用于浅层等级分类的方法,即为了形成门或纲,也需要一个处于现有门或纲以外的分支。这里确定的两个最分散的分支位于RdRP系统发育树中Kitrinoviricota,原则上可以拓展该门。这些深层分支中的第一个,p.0001仅包括3个RCR90簇,因此没有进一步分析。第二个,p.0002具有独特的特征,似乎更符合候选门的指定,而不是Kitrinoviricota的扩展。这个门由来自30个RCR90簇的234个contigs组成,最完整contig的具有∼10个ORF,平均长度约为12 kb。除RdRP外,只有一个ORFs(在p.0002中的两个暂定家族之一中保守)与已知的蛋白质结构域具有显着相似性,特别是与细胞裂解有关的金属蛋白酶的M15或M35家族(见下文)。p.0002基因组中的ORF紧密间隔,并且在其之前是参与原核翻译起始的核糖体结合基序(Shine Dalgarno, SD)(图3A)。总之,p.0002似乎由噬菌体组成,并依此指定分类,这也支持了以往研究发现的所有分离培养的Kitrinoviricota病毒成员都能感染真核生物。

图3:原核RNA病毒的多样性和丰度

(A)来自p.0002f.0278的病毒的基因组图谱。ORF根据功能注释着色,预测的SD基序用彩色箭头表示。

(B)已识别的(下划线)和预测的原核RNA病毒概述。支持每个组与原核宿主相关的证据类型被指出。在排除在contigs边缘的基因后,如果有至少50%的ORF与SD基序相关,则认为进化枝可能主要由噬菌体组成。

(C)黄石温泉中Roseiflexus sp. RS-1的CRISPR spacer,包括与genPartiti.0019基因组匹配的部分。左侧显示为每种类型的Roseiflexus sp. RS-1 CRISPR阵列确定的spacer总数。右图显示了噬菌体类型(dsDNA,ssDNA或RNA)。

(D)来自genPartiti.0019噬菌体的一对RdRP和衣壳编码片段的示例。上图:CRISPR spacer与每个片段的基因组图谱一起标明。不匹配的次数显示在 y 轴上,命中的位置显示在 x 轴上。底部面板显示两个段在宏转录组时间序列中的相对丰度。

(E)跨生物群落不同原核RNA病毒群的相对丰度。仅考虑了由包含至少10种原核RNA病毒的原核序列(“P-主导”)主导的数据集。右侧面板显示了每个组的生物群系分布,该分类是根据50个样本的重抽样组成的平衡数据集计算得出的(随机重抽样执行了100次,并绘制了平均值)。

另一个高度分歧的候选RNA噬菌体门是RvANI90_0011770,其中一个病毒簇在系统发育工作中被省略,因为它们极大影响了RdRP比对(因此没有指定门级分类水平)。所有RvANI90_0011770成员都来自27个不同的活性污泥样本,其中这55个contigs中最大的长度达到了10-12 kbp,编码7-9个紧密间隔的ORF,没有保守的SD基序。与p.0002类似,唯一公认的蛋白质结构域包括RdRP和预测的裂解酶(见下文)。

在5个已建立的门中,有4个门的类级多样性显着增加,包括Lenarviricota中的14个纲(其中4个是已知的),Pisuviricota中的18个纲(其中4个是已知的),Kitrinoviricota 中的20个纲(其中3个是已知的)与Negarnaviricota中的18个纲(其中6个是已知的)。在Duplornaviricota中,除了两个公认的类之外,只确定了两个候选的类级分支。总体而言,Orthornavirae的5个门包含91个纲,而先前仅建立了19个;作者确立了489个科相较于以往研究确认的98个门(表1)。其中一些候选分类群包括以前报道的多样性病毒,这些病毒尚未被ICTV命名。

表1 全球RNA病毒组的扩增

4. 细菌相关RNA病毒范围的重大扩展

Major expansion of the range of RNA viruses associated with bacteria

到目前为止,大多数RNA病毒都与真核宿主有关,只有两组已知感染细菌,leviviruses (Leviviricetes)和 cystoviruses (Vidaverviricetes)。直到最近,leviviruses和特殊的cystoviruses宿主范围极窄。在这里,作者将Cystoviridae病毒科的多样性从8个已发表的RCR90集群扩展到了132。Levivirus病毒多样性,增加到13,512个RCR90簇。

扩大的Lenarviricota病毒门现在占RNA病毒RCR90集群的三分之一以上,包括四个最大的科(图2),其中第一和第四,SteitzviridaeFiersviridae病毒科,是真正的利维维氏噬菌体(Leviviricetes)。第二大家族Botourmiaviridae科由真核病毒组成,这些病毒似乎是从与Leviviricetes具有共同的祖先,无衣壳的NarnaviridaeMitoviridae病毒科(RNA病毒的第三大科)作为进化的中间体。除了Lenarviricota的重大扩张之外,证据表明以前被认为仅感染真核生物的几组病毒现在被认为能够感染细菌宿主(图3B)Pisuviricota噬菌体与感染真核生物的噬菌体进行分类学注释。在Durnavirales病毒序列中,几个病毒株在5′-UTR中存在SD基序,这表明这些病毒感染细菌。这些假定的噬菌体包括Picobirnaviridae病毒科的成员,先前曾报道过其SD基序,以及两个囊状家族成员(f.0114.base-Cystof.0112.base-Cysto)Picobirnaviridae的另外两个属( genPartiti.0029, genPartiti.0019.base-Deltapartitivirus)(图 3B)。

细菌与一些已鉴定的病毒组相关的另一个证据是细菌溶解蛋白的保守序列(图3B)。许多 dsDNA 噬菌体和 dsRNA 囊型病毒编码裂解酶(内溶素)降解细菌肽聚糖。相反,leviviruses病毒通过被称为单基因裂解(Sgl)的小蛋白质抑制肽聚糖合成,从而诱导宿主裂解。leviviruses病毒sgl 通常重叠或嵌套在其他基因中。在这里,作者使用搜索sgl结构域来检测可能感染细菌的病毒基因组(图3B)。该搜索产生了546个与裂解蛋白匹配的序列,主要在Leviviricetes (469) 和Cystoviridae (17) 中。不过这其中也包括一些裂解其他蛋白的结构域,具体来说:包括一些f.0114.base-Cysto病毒编码N-乙酰乳酸-L-丙氨酸酰胺酶,而f.0112.base-Cysto编码的M15或M23家族的金属肽酶常见于dsDNA噬菌体中。一些f.0112.base-Cysto病毒也编码脂肪酶,可进一步诱导宿主裂解。最后,还有一些f.0115.base-Cysto病毒编码了一种L-丙氨酰-D-谷氨酸内肽酶,该内肽酶通常在dsDNA噬菌体。cystoviruses病毒中内溶蛋白的这种分支特异性分布表明,与dsDNA噬菌体一样,裂解基因经常受到非同源替换的影响,可能与宿主范围变化有关。

病毒与原核宿主关联的最后一条证据是RNA病毒和CRISPR spacer之间的匹配。虽然大多数已知的CRISPR系统都以DNA模板为目标,但Ⅲ型CRISPR系统的中的一些能够编码逆转录酶,可以保护细菌免受RNA噬菌体的侵蚀。作者将所有已鉴定的RNA病毒基因组与超过5000万个spacer的IMG数据库进行了比较,从23个RvANI90集群中检测出来自23个RvANI90集群的161种RNA病毒的spacer匹配,横跨两个分支:LeviviricetesgenPartiti.0019(图3B)。所有与Leviviricetes病毒的匹配均来自IMG宏基因组的短contigs,没有可靠的分类信息或相邻的cas基因。相比之下,与genPartiti.0019病毒匹配的Roseiflexus sp. RS-1开展了进一步分析。Roseiflexus sp. RS-1是一种丝状无氧光营养型的绿弯菌门细菌,从中获得了genPartiti.0019序列。Roseiflexus sp. RS-1的基因组包含四个CRISPR位点,其中一个亚型III-B编码与Cas1蛋白融合的RT。在对比分析16个宏基因组中的spacer时,每个CRISPR阵列都可以与1,000-40,000个spacer相关联,但在RT编码Ⅲ-B阵列中仅检测到一个与genPartiti.0019序列匹配的spacer(图3C)。在9年的连续观察中发现到这些CRISPR spacer的匹配,并显示出随时间变化的动态增益/损失,表明了病毒-宿主间的关联性。

由于所有genPartiti.0019重叠群仅编码RdRP,而相关的分型病毒具有分段基因组,其中衣壳和其他蛋白质被编码在单独的片段中,因此作者在蘑菇泉宏转录组数据中搜索编码相应衣壳蛋白(CPs)的contigs。结合来自Roseiflexus sp. RS-1编码的Ⅲ-B型阵列的间隔物的匹配结果,蘑菇泉宏基因组中缺乏相应的序列,以及与至少一个genPartiti.0019 RdRP编码序列的强相关性(>0.9),作者确定了88个潜在的衣壳编码重叠群(图3D),其中86种蛋白与已知单胞体病毒衣壳的HMM谱最吻合。因此,GenPartiti.0019成员最有可能是感染Roseiflexus sp. RS-1的RNA噬菌体。

有趣的是,在由原核宿主主导的数据集中(“P-主导”,主要由原核转录本组成),在广泛的生境中检测均到了潜在的RNA噬菌体,其中Leaviviricetes是迄今为止最丰富的原核RNA病毒群,但是在黄石温泉以genPartiti.0019为主(图3E)。

5. RNA病毒的差异分布

Differential distribution of RNA viruses across samples and habitats

作者的RNA病毒调查覆盖了整个全球,反映了地球上无处不在的RNA病毒(图4A)。宏基因组研究表明,DNA病毒的分布由环境类型和宿主群落组成,相同的因素同样可能决定RNA病毒的分布。对于宏转录组,样品处理方案可能是另一个因素,即是否对总RNA进行了测序,或者是否使用了任何特定的预处理。在这里,大多数分析的数据集都是无rRNA的(67%)。polyA富集和总RNA数据集以真核序列为主,去除掉rRNA的数据集主要由原核生物的序列组成。根据非病毒contigs的分类组成,将数据集分为三组:“真核生物(E)-主导”(811),“原核生物(P)-主导”(2,706)和“混合”(452)。大多数RNA病毒类在数据集类型和环境之间显示出清晰的分布模式,可能反映了其主要宿主组的分布(图4B)。例如,来自工程、根际和土壤生境的P-主导样品中,Leviviricetes有明显富集(图4B)。这意味着RNA噬菌体的全球生态分布不均匀,支持先前的发现。同样在Lenarviricota中,主要感染真菌、无脊椎动物和植物的Miaviricetes与E-主导和混合数据集相关,而Howeltovirices成员(包括有丝分裂病毒)在所有样本类型中都很常见,但在植物相关数据集中的富集更为明显,也包含于真菌数据集中。

虽然将特定的真核生物宿主分配给RNA病毒是一项具有挑战性的任务,但作者怀疑许多检测到的病毒感染了不同的单细胞真核生物,因为它们利用了替代遗传密码(见下文)。假设病毒的广泛宿主分配(植物,动物或真菌)可以扩展到次要序列差异性(<10%),作者仅鉴定出1,038个宏转录组contigs属于相同的RvANI90簇,这些contigs与来自VirusHostDB分配给植物或动物宿主,表明在分析的数据集中感染这些宿主的病毒流行率较低。此外,可以对1,038个宏转录组contigs(6个科:Tombusviridae, Virgaviridae, Betaflexiviridae, Alphaflexiviridae, BenyviridaeMayoviridae)进行特定的宿主分配,编码运动蛋白(MP),使病毒能够通过胞间连丝。

图4:RNA病毒的全球分布

(A)含有RNA病毒的分析样品的位置。对于每个样品,圆圈大小反映了不同RvANI90的数量,圆圈颜色表示预测为噬菌体的序列的比例;

(B)跨生态系统类型(y轴)检测到的(潜在的)RNA病毒类别的相对比例(x轴)。计数表示为富集比率,每个类别检测到的基因组总数和每种生态系统类型的样本总数与假设所有类别在所有生态系统中均匀分布的预期基因组数量相比。数据集分为“E-主导”(主要由真核转录本组成)、“P-主导”(主要由原核转录本组成)和“混合”。仅显示生态系统和数据集类型(例如,“海洋P-主导”)的组合的富集,其中检测到20个至少具有1个RNA病毒的宏转录组数据。

6. RNA病毒基因组的模块化进化

Modular evolution of RNA virus genomes

在这里,作者对来自相关分支的病毒基因组进行了比较分析,确定了基因组模块的实例,例如基因组片段的融合,蛋白质的重排和多蛋白的片段化。在Picornavirales中观察到涉及结构模块的常见基因组重排,其中CP被编码在基因组复制模块的下游或上游,作为同一多蛋白的一部分或作为单独的蛋白质。已知的Benyviridae, PicobirnaviridaeBotourmiaviridae病毒科通常在不同的节段上编码CP和RdRP。在这里,作者确定了RdRP和CP在同一段上的这些家族的成员。

作者检测到多例非同源体结构基因模块移位。如,尽管PotyviridaeBenyviridaeMatonaviridae的成员编码3个不相关的CP,但这些病毒附近分支的一些谱系编码SJR样CP,形成非包膜二十面体病毒粒子。鉴于这种谱系基础位置,SJR CP可能是所有三个病毒组的祖先。在f.0226.base-Beny组中,几种病毒编码SJR和烟草花叶病毒(TMV)样CP,可以预测它们分别形成二十面体和螺旋衣壳,这表明这些病毒可能获得了第二个CP,但保留了祖先的CP。相反,在两个已鉴定的Virgaviridae病毒科contigs上(ND_191857和ND_019381)中,TMV样CP被Kitaviridae科的结构蛋白取代。在f.0268.base-Toga中,典型的Togaviridae病毒科结构模块(包括CP和II类融合[CIIF]蛋白的基因)被nidovirus的I类融合蛋白和M蛋白取代(ND_164660;图 5)。在Xinmoviridae病毒科的contigs中也发现了膜融合糖蛋白的类似替代,其中CIIF蛋白取代了典型的III类融合蛋白,但保留了典型的单病毒核衣壳蛋白。

最初在PermutotetraviridaeBirnaviridae中,在RdRP域内发生明显的重排(称为“域排列”),其中基序(A, B, C)的顺序与规范形式不同。在这里,RCR90 RdRP 集 (2,241) 的 ∼2.9% 被标识为置换。作者的分析表明,基序交换是两类(图2)的祖先,c.0017Pisuviricota(包括Permutotetraviridae, Birnaviridae和其他14个暂定科[f.0088-f.0101])和c.0032Kitrinoviricota(涵盖8个假定的家族[f.0167-f.0174],包括来自阳山集合的许多病毒)。

图5:RNA病毒中蛋白质结构域的多样性。

同源域显示为相同颜色的框(请参阅右侧的图例)。在RNA病毒中不常见的结构域以红色显示,并标记在相应的框上方。病毒分类群和连续标识符记录在每个病毒基因组的左侧。在底部,标尺表示核苷酸的长度。

7. RNA病毒蛋白质结构域库的扩展

Expansion of the protein domain repertoire of RNA viruses

在这里,作者通过广泛搜索蛋白质结构域来注释已识别的病毒。与以前的研究检测到的域的频率遵循幂律般的分布,其中大多数域仅出现在特定的病毒组中。在RNA病毒树中广泛分布的少数标志性结构域中,最普遍的是RdRP,其次是不同类型的CP(CP_SJR, CP_levi),RNA解旋酶(SF1, SF2, SF3)和丝氨酸/半胱氨酸蛋白酶。除了上述裂解结构域外,作者还确定了几个可能会调节病毒-宿主相互作用并抑制宿主抗病毒反应的域。

几种主要感染脊椎动物的Tobaniviridae病毒科成员编码细胞因子受体的Janus激酶(JAK)TYK2同源物(HHpred p = 100%),其在激活时触发宿主免疫应答。这些病毒性JAK缺乏典型TYK2的FERM和SH2结构域,可能通过其假激酶结构域作为细胞JAK的显性阴性抑制剂起作用。唯一预测编码丝氨酸/苏氨酸激酶的其他RNA病毒是单胞胎病毒(图5),尽管该激酶与JAK无关。f.0059.base-Potyf.0167家族的成员编码肿瘤坏死因子受体SF的细胞因子受体的同源物,已知参与细胞凋亡和炎症。病毒同源物可能充当宿主对应物的诱饵,隔离细胞因子。

在一个或多个谱系的RNA病毒中鉴定这些不同的结构域意味着病毒-宿主相互作用的多种机制,特别是反防御机制,这仍有待进一步的研究。

8. RNA病毒中的替代遗传密码

Alternative genetic codes in RNA viruses

以前的调查确定了几个利用非标准遗传密码的RNA病毒组,这表明它们用匹配的代码感染宿主,例如纤毛虫。在这里,在77,510个RCR90代表中,有5,843个(∼7.5%)显示出替代遗传密码的证据,表明在RdRP核心域编码区中存在规范的终止密码子。尽管在大多数情况下,不可能确定特定的替代密码子,但在可行的情况下,最常见的6(UAA和UAG编码Gln)和14(UAA和UGA分别编码Tyr和Trp,以及三个感密码子的重新编码),这些代码分别在纤毛和扁虫线粒体上。与许多使用替代遗传密码的DNA病毒不同,这些遗传密码会主动重新编程宿主细胞的翻译机制以使其受益。事实上,有∼51%的病毒使用真菌线粒体中常见的代码4。在大多数大型RNA病毒组中还检测到具有替代遗传密码的重叠群,通常频率为百分之几。作者在整个RdRP的系统发育树中鉴定出在此类代码中富集的病毒谱系(>50%)(图2中的绿色弧)。在DuplornaviricotaNegarnoviricota中没有检测到替代代码的系统发育信号。相比之下,作者检测到19个Pisuviricota科,它们通常包含一个或两个小分支(8-30个RCR90成员),具有明显的原生生物编码(UAA和/或UAG编码的氨基酸)。Dicistroviridae病毒科(单虫+ssRNA节肢动物病毒)有12个分支,这表明其中一些二虫病毒可能是原生生物感染的,潜在的节肢动物相关病毒。最后,在Kitrinoviricota中,作者观察到令人惊讶的替代编码分布:7个科包括具有替代编码的小分支,而其他7个科完全(f.0150, f.0177-f.181)或主要(f.0176)使用替代原生类编码的病毒。与先前的调查结果,目前的分析表明,Kitrinoviricota病毒包括大量以前未被发现的原生病毒多样性。

- 讨论 -

宏基因组和宏转录组分别成为DNA和RNA病毒发现的主要来源。在这里,作者分析了从3,598个不同的宏转录组中回收的超过250万个RNA病毒contigs。宏转录组分析容易出现假阳性,主要源自于组装的嵌合体。因此,重要的是要强调,这项工作的所有结论都是基于对RNA病毒进化保守序列的分析,而不是单例,在不同的集合中出现相同的嵌合体是非常不可能的,同时作者也开展了其他几种防止嵌合组件的安全措施。

作者的分析结果,90%的RvANI簇数量(在物种和属之间)增加了9倍,总系统发育深度增加了5倍,代表性RdRP序列(RCR90)的数量增加了近6倍,从纲到科的分类群数量增加了5倍。相比之下,在门水平上,RNA病毒分类学基本保持稳定,除了在先前建立的5门中,又增加了两个候选门。大多数先前将RNA病毒家族分配给门的物种仍然稳定,尽管有明显的例外。

尽管有明显的例外,大多数以前的RNA病毒科的门的分配保持稳定。因此,囊病毒科扩展了一个数量级,并从Kitrinoviricota迁移到Pisuviricota,在那里它现在与其他dsRNA病毒、picobirnavirvirus和partitivirus形成了一个强支持的分支。考虑到扩大的家族系统发育分析的可靠性和这三组dsRNA病毒的单系性的合理性,囊病毒科目前的位置很可能是有效的。但是,其他几个科,特别是黄病毒科的位置并不稳定。虽然这个家族也从Kitrinoviricota迁移到了Pisuviricota,但在这种情况下,实际归属仍不确定。

本分析消除了长期以来RNA病毒组仅能感染真核生物的偏见。除了列维病毒的多样性的重大扩展外,作者还获得了多种其他病毒组感染细菌的迹象 - 特别是皮科比纳病毒和几个单胞病毒分支。支持这种可能性的一个关键证据是发现了许多靶向RNA病毒的CRISPR间隔物,包括Leviviricetes的成员和单胞病毒中的一组候选RNA噬菌体。

目前的研究结果强烈表明,在远距离相关的宿主之间发生剧烈的宿主转移,称为水平病毒转移(HVT),甚至跨越原核生物-真核生物的鸿沟,是RNA病毒进化的主要途径。HVT事件可能发生在不同门,类别甚至RNA病毒目中。在这方面,特别应该注意其中的一部分病毒,其中检测到多个匹配的CRISPR间隔物,因此被暂时分配给Roseiflexus作为宿主。这种来自独特栖息地的狭窄病毒群,很可能是一个属,属于单胞菌病毒,其中许多已知会感染真菌,植物和无脊椎动物。

除了全球RNA病毒组的重大扩展外,这项工作还大大扩展了RNA病毒基因组中编码的蛋白质结构域的目录。虽然这些结构域RNA病毒谱系都很窄,但是这些结构域的共同作用在于通过不同的分子机制进行反防御。这些发现意味着,尽管RNA病毒的基因组通常较小,但在宿主基因的激发方面,RNA病毒比以前认识到的更相似。

总之,这些结果极大地扩展了Orthorrnavira界的多样性,特别是与细菌相关的RNA病毒的多样性,同时在最新的分类方案中引入了相对较小的变化,支持了其总体稳健性。此外,在RNA病毒中预测了多种蛋白质功能。本研究中产生的大量序列和衍生数据可通过网站(riboviria.org)或Zenodo获得。作者希望该资源能够使研究人员在未来的研究中描述新的RNA病毒时获得有意义和全面的背景。此外,该资源可以帮助研究人员识别要通过实验表征的关键RNA病毒基因组。

- 研究的局限性 -

作者检测RNA病毒的方法在很大程度上依赖于通过搜索的RdRP,这些分析可能会错过具有改变的规范序列基序的极远的同源物。此外,几种RNA病毒具有“分裂”的RdRP,其中基序编码在不同的ORF甚至基因组片段中。作者基于RdRP的另一个缺点是缺乏对分段 RNA 病毒基因组的系统鉴定工作(因为非RdRP编码片段不会被识别)。目前,除了编码RdRP的基因组片段之外,仅针对CRISPR靶向的细菌感染部分病毒组通过共现分析来鉴定。全面检测分段的RNA病毒基因组是未来分析的任务。

与这项工作同时进行的两项研究提出了相同的见解。Serratus团队和TARA海洋项目均全面比较大规模RNA数据分析,并报告了许多新型RNA病毒。不过在许多方法学方面,三项研究(包括本研究)存在明显差异,包括所分析的宏转录组的范围。然而,为了量化三个项目结果之间的重叠并相应地评估每个项目的新颖性,作者对获得具有两个聚类阈值的RdRP聚类进行了自动比较,细粒度为0.9,粗粒度分类为0.5。

该比较的结果检测到所有三个项目共享的集群数量相对较少,并显示每个项目共享数千个集群是唯一的。在细粒度为0.9时,Serratus数据中确定了最多的唯一聚类,这是可以预期的,因为该项目包含的数据集比其他两个数据集大得多。然而,在粗粒度阈值为0.5时,作者目前的结果比其他两项研究包含更多独特的簇,这表明作者的工作涵盖了更大的RNA病毒的系统发育深度。这种比较支持了作者的结论,即目前全球RNA病毒组的采样远未达到饱和。因此,这三项研究是互补的,将结果纳入单一的系统基因组学框架和结论的合成应该会大大提高作者对RNA病毒的了解。

参考文献

Neri, U., Y.I. Wolf, S. Roux, A.P. Camargo, B. Lee, D. Kazlauskas, I.M. Chen, N. Ivanova, L. Zeigler Allen, D. Paez-Espino, D.A. Bryant, D. Bhaya, M. Krupovic, V.V. Dolja, N.C. Kyrpides, E.V. Koonin, U. Gophna and R.N.A.V.D. Consortium. Expansion of the global RNA virome reveals diverse clades of bacteriophages. Cell, 2022

- 作者简介 -

第一作者

以色列特拉维夫大学

Uri Neri(共通讯)

博士研究生

主要研究方向:

1. 取极端环境(如死海)的样品,并试图识别新的病毒及其宿主。

2. 利用计算方法和公开的多组学数据,以扩大已知的病毒基因库。

通讯作者

俄勒冈州立大学

植物学和植物病理学系

Valerian V. Dolja

Valerian V. Dolja于1974年毕业于俄罗斯莫斯科国立大学,并分别于1980年和1987年获得博士学位和博士学位。研究方向为植物细胞生物学(肌球蛋白转运)和植物RNA病毒学(病毒 - 宿主相互作用,功能基因组学,基因表达载体)。目前的研究重点是病毒的多样性和进化(比较基因组学和病毒起源)。是《Biology Direct》, 《Frontiers in Plant Science》和《Journal of Virology》杂志编委,也是是美国科学促进会和美国微生物学会会士。

美国能源部

联合基因组研究所

Nikos C. Kyrpides

Nikos C. Kyrpides于2004年加入美国能源部联合基因组研究所(DOE Joint Genome Institute),领导基因组生物学计划以及微生物基因组和宏基因组(IMG)比较分析平台的开发。Kyrpides博士的研究重点是微生物组,关注微生物组数据科学。他的团队正在开发新的方法来实现大规模的比较分析,以及大数据的挖掘和可视化。

美国国立卫生研究院

国家生物技术信息中心

Eugene V. Koonin

Eugene V. Koonin是美国国立卫生研究院国家生物技术信息中心(NCBI)进化基因组学小组的负责人。他主要以对基因组进化研究而闻名,特别是在微生物和病毒方面,重点关注CRISPR-Cas系统的功能和进化方面。Koonin是美国艺术与科学院,美国微生物学会的院士,美国国家科学院院士,欧洲分子生物学组织的外籍会员。Eugene Koonin的团队从事“后基因组”计算生物学研究,即利用基因组序列,表达,相互作用和其他数据来促进作者对生命进化和活细胞功能的理解。这项研究涉及基因组,途径和网络进化的数学建模;全基因组系统发育分析的理论与实践;构建基因组和个体功能系统的进化情景;蛋白质和RNA的进化分类;鉴定以前未检测到的蛋白质结构域并预测其功能。Koonin对病毒的进化和病毒 - 宿主的共同进化尤为关注,包括细菌的病毒防御系统的多样性和进化路径。其中一个重点关注的方向是表征CRISPR-Cas系统的新变体,旨在重建原核生物中适应性免疫的进化以及识别基因组工程的潜在新工具。

以色列特拉维夫大学

分子细胞生物学与生物技术学院

Uri Gophna

Uri Gophna的研究方向围绕两个相关的主题:水平基因转移在微生物进化中的作用宿主-微生物的相互作用,特别关注疾病对人类肠道微生物群。通过多种生物信息学方法,识别水平转移的基因并研究它们的进化关系,包括探索驱动或限制原核物种间基因流动的因素和基因转移的障碍,特别是微生物免疫系统CRISPR-Cas。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多