环境宏病毒组学分析思路与常用工具 袁凌1, 2,倪艳4,鞠峰1, 2, 3 * 1 浙江省海岸带环境与资源研究重点实验室,工学院, 西湖大学, 杭州, 浙江 2 前沿技术研究所, 浙江西湖高等研究院, 杭州, 浙江 3 西湖实验室(生命科学与生物医学浙江省实验室),西湖大学, 杭州, 浙江 4 国家儿童临床医学研究中心,浙江大学医学院附属儿童医院,杭州,浙江 *通讯作者邮箱: jufeng@westlake.edu.cn 摘要: 病毒是地球上丰富度最高的生物个体,几乎能够侵染任何形式的生命体,在全球生态系统和食物链中扮演着不可或缺的角色。其中噬菌体(侵染细菌的病毒)可以影响宿主代谢系统和微生物群落结构,并且能够通过基因转移从宿主处获得基因。例如,噬菌体编码的辅助代谢基因对地球化学循环的影响以及噬菌体编码的抗生素抗性基因对耐药性传播的影响近年来受到了研究者的重点关注。现今,随着高通量测序技术的发展,针对病毒组的研究不断深入。与细菌类似,病毒的基因组信息同样能够通过组装技术从宏基因组测序数据集中重构,通过对病毒长序列的识别以及进一步对病毒基因的预测和功能注释,可以评估病毒生物多样性和群落结构,进而探究病毒-宿主关系以及病毒对微生物群落及生物地球化学循环过程的影响。本文主要基于已开展的代表性地球病毒组研究,探讨环境宏病毒组的分析思路,然后介绍目前两种主流的病毒重叠群的识别工具VirSorter和VirFinder的使用方法。 环境宏病毒组学分析思路: 通过以下宏病毒组分析的常规流程(图1),可重构环境样本中病毒基因组草图,进而获取基因组注释、分类学信息、基因组质量、组成与丰度分布、宿主预测等病毒基因组研究所需的关键信息1。 1)病毒样品采集:首先,研究者需根据研究目的和环境样品类型进行针对性的病毒颗粒采集。针对海洋2, 3、淡水4, 5、温泉6、土壤7, 8、工程系统9, 10(例如生物反应器)等不同类型栖息地病毒样品采集操作流程可参考相关文献。 2)病毒核酸提取:研究者可以根据具体的研究对象来决定提取的核酸类型,即:提取DNA(针对DNA病毒)或提取RNA(正在活跃侵染宿主的DNA、RNA病毒)。目前针对病毒组的核酸提取有两种策略: i)首先提取微生物群落总DNA或总RNA,然后在后续测序数据处理过程中再去除大量属于细胞生物的序列及其他污染序列4, 11, 12。这种策略没有繁琐的病毒颗粒富集及核酸提取过程,但在后续数据处理过程中可能会丢失部分低丰度的病毒信号。值得注意的是,该策略产生的海量宏基因组和宏转录组测序数据,其重分析是挖掘环境样品中宏病毒组信息的合适选择; ii) 富集病毒颗粒后再进行DNA或(和)RNA的提取,在后续测序数据处理过程中需要去除的属于细胞生物的序列及其他污染序列将会大大减少2, 3, 13, 14。这种策略需首先经过较为复杂且可能存在一定偏差的病毒富集过程后再进行核酸提取15, 16,但得到的测序数据集病毒信号已经被放大,这对于识别病毒序列更加有利。 3)扩增建库与高通量测序:通过病毒核酸样品的建库与高通量测序得到原始序列(raw reads)。通常能从环境样品中成功提取的病毒核酸总量低(~ng级别),建库测序前还需要对核酸样本进行全基因组扩增。常见的扩增建库策略可参考Rinke et al. 2016 17。 4)质量控制:通过原始序列的质量控制(quality control)、测序接头去除和低质量序列过滤后得到干净序列(clean reads)。 5)组装:通过干净序列的组装得到重叠群(contigs)。在众多的组装软件中,metaSPAdes、MEGAHIT和IDBA-UD被证明具有最好的病毒组组装效果18。 6)识别病毒重叠群:无论使用哪种采样富集或核酸提取策略,得到的序列数据集中均包含大量不属于病毒的信号,因此研究者需要识别来自于病毒的序列信号。目前最常用的识别病毒重叠群(viral contigs)的方法为使用VirSorter软件,同时可结合其他软件的使用(如VirFinder)或直接比对到现有的数据库做辅助验证。这两款常用病毒组研究常用软件的使用方法会在后文详细介绍。 图1 环境宏病毒组分析常规流程示意图 7)恢复病毒类群:鉴于从不同样本中识别的病毒重叠群可能存在序列冗余,且片段化的病毒重叠群可能实际来源于同一病毒基因组,因此在识别病毒重叠群之后还需要进行病毒类群(Viral populations)的恢复。目前主要的病毒类群恢复方法列举如下: i)根据序列长度和平均核苷酸相似度(average nucleotide identity, ANI)作为参数进行聚类得到病毒类群,例如在80%序列长度ANI达到95%或以上的病毒重叠群将被聚类为同一病毒类群3, 19(尽管这仍然会高估病毒的多样性); ii)基于病毒重叠群在样本中的覆盖度(coverage)和四核苷酸频率(tetranucleotide frequencies)进行分箱获得病毒类群2; iii)对病毒重叠群进行延长、拼接、环化并手动修正组装偏差得到某些在样本中丰度较高的病毒完整基因组4。 与细菌不同,病毒没有一定数量普遍存在的单拷贝标记基因(universal single-copy marker genes),使得病毒类群恢复后,无法根据基因组中标记基因的编码情况判断其完整度和污染度18,目前可参考CheckV软件20基于基因组比对进行病毒基因组完整度和宿主污染情况的评估。 8)病毒基因预测和注释:为了得到恢复的病毒序列的物种分类和功能信息,先通过常规方法(如:使用Prodigal)对病毒重叠群中的基因进行预测,然后将预测得到的基因比对到数据库进行功能注释。常用的数据库均储存了来自病毒的基因信息,如:NCBI RefSeq、GenBank、PFAM、KEGG、UniProt、EggNOG等。由于目前数据库中病毒基因序列的注释信息还远远不足,这使得研究者即使使用非常宽松的比对参数,仍然会得到大量未知功能的病毒基因。目前,病毒类群的分类学信息常常遵循多数原则,即恢复基因组中大部分基因(如基因组中>50%基因)注释到某一病毒科级别(family),该病毒类群则被认为属于此病毒科3, 14。 9)计算病毒类群/病毒基因的相对丰度/表达量:通过将干净序列映射(mapping)回病毒重叠群或病毒基因,计算其在样本中的相对丰度(如为转录组数据则为表达量),得到病毒的群落结构、病毒基因的表达水平等重要信息。 10)宿主预测:病毒组研究的另一重要方面即为病毒的宿主预测。然而目前没有一种全面、准确的方法能够完成宿主预测,一般会选择用几种方法结合使用来进行宿主预测。目前较为常用的病毒宿主预测方法、原理和举例文献列于表1。 表1 目前常用病毒-宿主预测方法、原理与文献举例
MIUViG:未培养病毒基因组的最少信息标准 病毒粒子在绝大多数栖息地的数量大大超过活细胞,但仅有极小一部分病毒可在实验室培养。通过上述不依赖培养的高通量测序和宏病毒组数据挖掘,有助于发现前所未有的病毒多样性。目前,领域已在基因组标准联盟框架内制定了未培养病毒基因组(Minimum Information about any (x) Sequence,MIUViG)标准的最少信息1,包括病毒起源、基因组质量、基因组注释、分类信息、生物地理分布和宿主预测。未培养的病毒基因组(UViGs)的大规模重构与解读有助于提高领域对病毒进化历史和病毒-宿主之间相互作用的理解。
VirSorter2使用教程 原网站:https://github.com/jiarong/VirSorter2 简介: VirSorter是一款能够在基因组数据集中识别病毒信号的软件,是目前病毒组研究中使用最广泛的一款病毒长序列(viral contigs)识别软件,已被引用四百余次。 该软件在2020年新推出了VirSorter2新版本,本教程将基于VirSorter2新版本进行介绍。 安装: Option1: conda create -n vs2 -c bioconda virsorter=2 #conda创建环境vs2并将VirSorter2安装进该环境 conda activate vs2 #激活vs2环境 Option2: 安装最新更新开发版本,官方推荐。 conda create -n vs2 -c bioconda -c conda-forge \ "python>=3.6" scikit-learn=0.22.1 imbalanced-learn \ pandas seaborn hmmer prodigal screed ruamel.yaml \ "snakemake>=5.16,<=5.26" click #conda创建环境vs2并安装指定版本的相关软件至该环境 conda activate vs2 #激活vs2环境 git clone https://github.com/jiarong/VirSorter2.git #从github下载源文件 cd VirSorter2 #进入VirSorter2目录 pip install -e . #安装 下载数据库: 在使用VirSorter2之前,用户需下载其数据库和相关文件,目前VirSorter2数据库包含dsDNAphage,NCLDV,RNA,ssDNA,lavidaviridae五大类病毒数据。 rm -rf db #注意,如果用户此前取消下载过,则需先运行该命令移除db目录,如之前未失败下载不需要进行此步骤 virsorter setup -d db -j 4 #正式下载数据库,大约需要10+分钟下载VirSorter2所有的数据库和相关文件,该命令下载内容储存于db目录中。 使用: Usage: virsorter run [options] [all|classify] Options: all or classify VirSorter2运行有三个步骤:1)序列预处理,2)提取序列特 征,3)分类。如选择all(默认值)则全部三步骤均运行,如选 择classify则只运行第三步,适合改变参数重新运行分析的 情况。 -w|--working-dir PATH 输出结果路径 -d|--db-dir PATH 数据库路径,安装时路径即为默认路径 -i|--seqfile PATH 输入的序列文件,需为fa或fq格式 -l|--label TEXT 为输出结果文件添加前缀,在使用不同参数重新分析时较有用 --include-groups TEXT 用户需要的病毒类别,可选值有: dsDNAphage,NCLDV,RNA,ssDNA,lavidaviridae, 多选需以逗号分隔,无空格。默认值为: dsDNAphage,NCLDV,RNA,ssDNA,lavidaviridae -j|--jobs INTEGER 最大并行任务数,默认值为256 --min-score FLOAT 被识别为病毒的最小打分值,默认值为0.5 --hallmark-required 在所有序列中均要求有标记基因,默认值为False --hallmark-required-on-short 在短序列中要求有标记基因,默认值为False。短序列标准在 template-config.yaml中确定,用户可自行更改,默认值为 3kb。该选项可在丢失可接受的敏感度的同时降低识别假阳性 --viral-gene-required 需要有属于病毒的基因被注释,无基因被注释的可能病毒序列 被移除。该选项可在丢失可接受的敏感度的同时降低识别假阳 性,默认值为False --provirus-off 识别完所有序列后不提取溶原性病毒序列,和--max-orf- per-seq结合使用可大大提速运行,默认值为False --max-orf-per-seq INTEGER 该选项仅在--provirus-off模式下可用,后接计算序列分类 特征所需要最大ORF数量,如某序列拥有超过该数量的ORFs, 则对其进行subsample至该数量。默认值值为-1 --min-length INTEGER 进行识别的序列的最短长度要求,默认值为0 --prep-for-dramv 为DRAMv生成病毒序列文件和viralaffi-contigs.tab文 件,DRAMv是一款能够注释VirSorter2输出的病毒序列的软 件,默认值为False --tmpdir TEXT 为临时文件命名 --rm-tmpdir 移除临时文件,默认值为False --verbose 显示详细输出,默认值为False -h|--help 显示帮助信息 实例: 使用VirSorter2官网给出的实例文件进行举例。 wget -O test.fa \ https://raw./jiarong/VirSorter2/master/test/8seq.fa #下载示例序列文件 virsorter run -w test.out -i test.fa -j 4 all #例1:以test.fa作为输入,使用默认下载数据库,使用4个线程,运行VirSorter2全部三步骤进行病毒序列的识别,结果输出至test.out virsorter run all -w test.out -i test.fa -j 20 \ -l DNA_mins0.7_minl1.5 \ --include-groups dsDNAphage,ssDNA \ --min-score 0.7 \ --hallmark-required-on-short 、 --min-length 1500 \ --prep-for-dramv #例2:以test.fa作为输入,使用默认下载数据库,使用20个线程,运行VirSorter2全部三步骤进行病毒序列的识别,仅对dsDNAphage和ssDNA病毒进行识别,长度>1.5kb且打分>0.7的结果保留,短于3kb的识别序列必须有hallmark基因,为DRAMv输出相关文件,结果输出至test.out并加上DNA_mins0.7_minl1.5前缀区分 核心输出结果: VirSorter2运行后会生成三个核心输出文件,分别为: final-viral-combined.fa #储存识别得到的病毒序列 final-viral-score.tsv #每条序列的各分类类别得分表格 final-viral-boundary.tsv #每条序列的信息表格 核心输出结果的详细描述: 1. final-viral-combined.fa 该fa文件储存VirSorter2识别得到的病毒序列,每条序列的名称为原始序列名称加后缀,后缀有以下三种可能: i) ||full 代表整条序列都被识别为病毒序列 ii) ||_partial 代表该序列仅有部分区域被识别为病毒序列,其中i可以为0至该序列中找到的病毒片段数量的最大值 iii) ||lt2gene 拥有病毒标记基因的短序列(少于2个基因的序列) 2. final-viral-score.tsv 该表格主要用于进一步筛选识别的病毒序列,其中主要内容包括: seqname 序列名称 dsDNAphage,NCLDV,RNA,ssDNA,lavidaviridae 各类别病毒下的打分 max_score 最高分 max_score_group 最高分所述类别 length 序列长度 hallmark 标记基因个数 viral 病毒基因比例 cellular 非病毒基因比例 #需要注意的是,VirSorter在此给出的分类学分类并不可靠,VirSorter2的目的仅限于病毒识别。 3.final-viral-boundary.tsv 该表格主要内容包括: seqname 序列名称 trim_orf_index_start,trim_orf_index_end 该序列被识别为病毒的部分的ORF的起止位置 trim_bp_start,trim_bp_end 该序列被识别为病毒的部分的碱基的起止位置 trim_pr 该序列被识别为病毒的部分的最终得分 partial 该序列是否全部被识别为病毒,如果该序列的整 体得分>cutoff,则该序列整体都被视为病毒序 列(0),反之则仅有部分被视为病毒序列(1) pr_full 该序列的整体得分 hallmark_cnt 标记基因个数 group 最高分所述病毒类别 VirFinder使用教程 原网站:https://github.com/jessieren/VirFinder 简介: VirFinder是另一款常用的病毒长序列(viral contigs)识别软件,该软件不基于现有数据库比对,而是基于病毒和宿主具有不同的k-mer频率特征,使用机器学习的方法来识别病毒序列,常常与VirSorter结合使用。 安装: Linux系统推荐使用conda安装 conda create -n VF -c bioconda r-virfinder #conda创建环境VF并将VirFinder安装进该环境 conda activate VF #激活VF环境 Windows系统需先进入https://github.com/jessieren/VirFinder/blob/master/windows/VirFinder_1.1.zip,下载VirFinder_1.1.zip至本地,然后进入R安装。 install.packages("glmnet", dependencies=TRUE) install.packages("Rcpp", dependencies=TRUE) source("https:///biocLite.R") biocLite("qvalue") #安装相关依赖包 install.packages(" #安装VirFinder, library(VirFinder) 使用实例: VirFinder实际为一R包,在R环境中运行分析,在此使用官方提供的序列文件进行实例讲解。 R #进入R,如为Windows系统则直接进入R library(VirFinder) #加载VirFinder包 inFaFile <- system.file("data", "contigs.fa", package="VirFinder") #指定需要识别病毒信号的序列文件,此处以官网给出的contigs.fa为例 #用户使用自己的文件只需将此句替换为 inFaFile <- " predResult <- VF.pred(inFaFile) #VirFinder执行病毒序列识别预测 predResult[order(predResult$pvalue),] #升序排列p-value predResult$qvalue <- VF.qvalue(predResult$pvalue) #根据p-values估算q-value predResult[order(predResult$qvalue),] #升序排列q-value write.table(predResult,file = " #将predResult结果输出, 核心输出: 使用实例中最后输出的结果即为VirFinder核心输出。 结果储存了各条序列的名称、长度、打分、p-value和q-value。 用户可根据打分和p-value进一步筛选得到的病毒长序列。 参考文献: 1. Roux, S.; Adriaenssens, E. M.; Dutilh, B. E.; Koonin, E. V.; Kropinski, A. M.; Krupovic, M.; Kuhn, J. H.; Lavigne, R.; Brister, J. R.; Varsani, A.; Amid, C.; Aziz, R. K.; Bordenstein, S. R.; Bork, P.; Breitbart, M.; Cochrane, G. R.; Daly, R. A.; Desnues, C.; Duhaime, M. B.; Emerson, J. B.; Enault, F.; Fuhrman, J. A.; Hingamp, P.; Hugenholtz, P.; Hurwitz, B. L.; Ivanova, N. N.; Labonte, J. M.; Lee, K. B.; Malmstrom, R. R.; Martinez-Garcia, M.; Mizrachi, I. K.; Ogata, H.; Paez-Espino, D.; Petit, M. A.; Putonti, C.; Rattei, T.; Reyes, A.; Rodriguez-Valera, F.; Rosario, K.; Schriml, L.; Schulz, F.; Steward, G. F.; Sullivan, M. B.; Sunagawa, S.; Suttle, C. A.; Temperton, B.; Tringe, S. G.; Thurber, R. V.; Webster, N. S.; Whiteson, K. L.; Wilhelm, S. W.; Wommack, K. E.; Woyke, T.; Wrighton, K. C.; Yilmaz, P.; Yoshida, T.; Young, M. J.; Yutin, N.; Allen, L. Z.; Kyrpides, N. C.; Eloe-Fadrosh, E. A., Minimum Information about an Uncultivated Virus Genome (MIUViG). Nat Biotechnol 2019, 37 (1), 29-37. 2. Roux, S.; Brum, J. R.; Dutilh, B. E.; Sunagawa, S.; Duhaime, M. B.; Loy, A.; Poulos, B. T.; Solonenko, N.; Lara, E.; Poulain, J.; Pesant, S.; Kandels-Lewis, S.; Dimier, C.; Picheral, M.; Searson, S.; Cruaud, C.; Alberti, A.; Duarte, C. M.; Gasol, J. M.; Vaque, D.; Tara Oceans, C.; Bork, P.; Acinas, S. G.; Wincker, P.; Sullivan, M. B., Ecogenomics and potential biogeochemical impacts of globally abundant ocean viruses. Nature 2016, 537 (7622), 689-693. 3. Gregory, A. C.; Zayed, A. A.; Conceicao-Neto, N.; Temperton, B.; Bolduc, B.; Alberti, A.; Ardyna, M.; Arkhipova, K.; Carmichael, M.; Cruaud, C.; Dimier, C.; Dominguez-Huerta, G.; Ferland, J.; Kandels, S.; Liu, Y.; Marec, C.; Pesant, S.; Picheral, M.; Pisarev, S.; Poulain, J.; Tremblay, J. E.; Vik, D.; Tara Oceans, C.; Babin, M.; Bowler, C.; Culley, A. I.; de Vargas, C.; Dutilh, B. E.; Iudicone, D.; Karp-Boss, L.; Roux, S.; Sunagawa, S.; Wincker, P.; Sullivan, M. B., Marine DNA Viral Macro- and Microdiversity from Pole to Pole. Cell 2019, 177 (5), 1109-1123 e14. 4. Chen, L. X.; Meheust, R.; Crits-Christoph, A.; McMahon, K. D.; Nelson, T. C.; Slater, G. F.; Warren, L. A.; Banfield, J. F., Large freshwater phages with the potential to augment aerobic methane oxidation. Nat Microbiol 2020, 5 (12), 1504-1515. 5. Gu, X.; Tay, Q. X. M.; Te, S. H.; Saeidi, N.; Goh, S. G.; Kushmaro, A.; Thompson, J. R.; Gin, K. Y., Geospatial distribution of viromes in tropical freshwater ecosystems. Water Res 2018, 137, 220-232. 6. Sharma, A.; Schmidt, M.; Kiesel, B.; Mahato, N. K.; Cralle, L.; Singh, Y.; Richnow, H. H.; Gilbert, J. A.; Arnold, W.; Lal, R., Bacterial and Archaeal Viruses of Himalayan Hot Springs at Manikaran Modulate Host Genomes. Front Microbiol 2018, 9, 3095. 7. Starr, E. P.; Nuccio, E. E.; Pett-Ridge, J.; Banfield, J. F.; Firestone, M. K., Metatranscriptomic reconstruction reveals RNA viruses with the potential to shape carbon cycling in soil. Proc Natl Acad Sci U S A 2019, 116 (51), 25900-25908. 8. Jin, M.; Guo, X.; Zhang, R.; Qu, W.; Gao, B.; Zeng, R., Diversities and potential biogeochemical impacts of mangrove soil viruses. Microbiome 2019, 7 (1), 58. 9. Wang, Y.; Jiang, X.; Liu, L.; Li, B.; Zhang, T., High-Resolution Temporal and Spatial Patterns of Virome in Wastewater Treatment Systems. Environ Sci Technol 2018, 52 (18), 10337-10346. 10. Subirats, J.; Sanchez-Melsio, A.; Borrego, C. M.; Balcazar, J. L.; Simonet, P., Metagenomic analysis reveals that bacteriophages are reservoirs of antibiotic resistance genes. Int J Antimicrob Agents 2016, 48 (2), 163-7. 11. Sieradzki, E. T.; Ignacio-Espinoza, J. C.; Needham, D. M.; Fichot, E. B.; Fuhrman, J. A., Dynamic marine viral infections and major contribution to photosynthetic processes shown by spatiotemporal picoplankton metatranscriptomes. Nat Commun 2019, 10 (1), 1169. 12. Paez-Espino, D.; Eloe-Fadrosh, E. A.; Pavlopoulos, G. A.; Thomas, A. D.; Huntemann, M.; Mikhailova, N.; Rubin, E.; Ivanova, N. N.; Kyrpides, N. C., Uncovering Earth's virome. Nature 2016, 536 (7617), 425-30. 13. Brum, J. R.; Sullivan, M. B., Patterns and ecological drivers of ocean viral communities. Science 2016, 348 (6237). 14. Dzunkova, M.; Low, S. J.; Daly, J. N.; Deng, L.; Rinke, C.; Hugenholtz, P., Defining the human gut host-phage network through single-cell viral tagging. Nat Microbiol 2019, 4 (12), 2192-2203. 15. John, S. G.; Mendez, C. B.; Deng, L.; Poulos, B.; Kauffman, A. K.; Kern, S.; Brum, J.; Polz, M. F.; Boyle, E. A.; Sullivan, M. B., A simple and efficient method for concentration of ocean viruses by chemical flocculation. Environ Microbiol Rep 2011, 3 (2), 195-202. 16. Miller, D. N.; Bryant, J. E.; Madsen, E. L.; Ghiorse, W. C., Evaluation and optimization of DNA extraction and purification procedures for soil and sediment samples. Appl Environ Microbiol 1999, 65 (11), 4715-4724. 17. Rinke, C.; Low, S.; Woodcroft, B. J.; Raina, J. B.; Skarshewski, A.; Le, X. H.; Butler, M. K.; Stocker, R.; Seymour, J.; Tyson, G. W.; Hugenholtz, P., Validation of picogram- and femtogram-input DNA libraries for microscale metagenomics. PeerJ 2016, 4, e2486. 18. Roux, S.; Emerson, J. B.; Eloe-Fadrosh, E. A.; Sullivan, M. B., Benchmarking viromics: an in silico evaluation of metagenome-enabled estimates of viral community composition and diversity. PeerJ 2017, 5, e3817. 19. <47.patterns and="" ecological="" drivers="" of="" ocean="" viral="" communities.pdf="">. 20. Nayfach, S.; Camargo, A. P.; Schulz, F.; Eloe-Fadrosh, E.; Roux, S.; Kyrpides, N. C., CheckV assesses the quality and completeness of metagenome-assembled viral genomes. Nat Biotechnol 2020. 21. Coutinho, F. H.; Silveira, C. B.; Gregoracci, G. B.; Thompson, C. C.; Edwards, R. A.; Brussaard, C. P. D.; Dutilh, B. E.; Thompson, F. L., Marine viruses discovered via metagenomics shed light on viral strategies throughout the oceans. Nat Commun 2017, 8, 15955. 22. Moniruzzaman, M.; Wurch, L. L.; Alexander, H.; Dyhrman, S. T.; Gobler, C. J.; Wilhelm, S. W., Virus-host relationships of marine single-celled eukaryotes resolved from metatranscriptomics. Nat Commun 2017, 8, 16054. |
|