非常感谢陈程杰老师的邀请,我们打算以三期推文的形式来系统的介绍叶绿体基因组的注释以及叶绿体基因组注释工具CPGAVAS2(网页版和命令行版)的使用。 (2)本期:CPGAVAS2命令行版 | 搞个大事情,一次准确高效的注释300个叶绿体基因组?! (3)下一期:CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误 上一期我们为大家介绍了CPGAVAS2(网页版)的基础教程,针对单个叶绿体基因组的注释,大家应该都没有问题了。那么这期,我们将介绍命令行批量注释的方法,解决一次性要注释上百个叶绿体的问题。 网站链接:http://47.96.249.172:16019/analyzer/home 网站首页: 为了解决部分老师对于安装软件环境冲突的问题,我们采取了singularity的策略,这样只需要安装singularity,然后调用CPGAVAS2即可。我们先使用他注释一个叶绿体基因组。 今天为大家介绍进阶版注释方法,分为六步: 第二步:安装singularity ###如果你有的话可以跳过此步骤 第三步:下载CPGAVAS2容器 第四步:下载测试数据 第五步:运行容器 第六步:检查结果 以下以Linux环境为例为大家演示详细步骤: 第一步安装conda: (1) 下载anaconda: wget https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh (2) 运行anaconda: bash Anaconda3-2021.11-Linux-x86_64.sh (3) 进入注册信息页面,输入yes: 阅读注册信息,然后输入yes;查看文件即将安装的位置,按enter,即可安装 进入安装过程 安装完成后,收到加入环境变量的提示信息,输入yes 看到下图这些信息说明已经安装完成。 提示信息“Do you wish to proceed with the installation ofMicrosoft VSCode? [yes|no]”,输入no 重启终端,即可使用Anaconda3 第二步使用conda安装singularity: (1)输入命令:conda create -n singularity 在过程中选择“y” (2)输入命令: conda activate singularity 进入singularity (3)输入命令: conda install -c conda-forge singularity 在过程中选择“y” 第三步找到并下载cpgavas2容器: (1)输入命令: singularity search cpgavas2 找到1个容器图像的amd64来匹配" cpgavas2 ": library://cliu/default/cpgavas2:xxx(此处xxx为0.03) (2)输入命令: singularitypull library://cliu/default/cpgavas2:xxx 此处xxx为0.03 (3)输入命令: ls 检查文件是否存在 第四步下载并解压测试数据: (1)输入命令: wget http://www.1kmpg.cn/cpgavas2/sample.fas 第五步通过容器运行cpgavas2管道: (1)输入命令: singularityexec cpgavas2xxx.sif run-cpgavas2 -pid 101 -in sample.fas -db 3 -ref sample.gb xxx在第三步中得到,此次为0.03 ###这里需要注意以下问题: -in: 输入文件 -ref: 提供的参考基因组(如果你想一次性注释一个属的叶绿体,可以选择一个近缘物种的gb文件作为全部序列的参考) 可以在该行找到结果所在目录 第六步检查分析结果: 这样的话目前就成功的在服务器上运行了一个叶绿体基因组,批量运行是需要一定的生信基础的,我们用它批量处理了3某个科的300个叶绿体基因组。提供一个shell的脚本,仅供参考。 #!/bin/bash set -e fasFileDir="" i=10 ls ${fasFileDir}/*.fas |while read id do singularity exec cpgavas2xxx.sif run-cpgavas2 -pid ${i} -in ${id} -db 3 -ref sample.gb i=`expr $i + 1` done 番外:CPGAVAS2网页版进阶教程 CPGAVAS2较之前的版本(CPGAVAS第一版,BMC Genomics)上增加了一些新的功能。我们一共有三种数据库形式,其中第三种就是我们上一期推文使用的方法。第一个数据库是43个经过RNA-seq数据精确校正后的的质体数据,第二个是经过多重序列比对序列比对筛选出的2544个质体数据库。 构造这两种数据库的原因:目前的注释充满了不确定性和错误,即使是对研究充分的物种。例如,在拟南芥属的13个物种中,matK基因的有5种不同的注释。其中11个品种的CDS比包括拟南芥在内的另外2个品种的CDS长66 bp,实际翻译起始点的位置还不确定,并且拟南杆菌(NC 000932.1)质体注释中缺失一个rRNA基因rrn5S。另一种类型的错误是外显子-内含子边界的错误分配。单靠多重序列比对不足以发现外显子-内含子边界的错误。RNA-seq比对到参考基因组对于识别所有外显子-内含子边界至关重要,基于这个原因,我们开发了43-质体数据集。 43-质体数据集:这43个质体是使用RNA-seq数据进行比对的。中包含了GeSeq和DOGMA数据集在属水平上使用的所有质体。首先,我们从NCBI SRA数据库(https://www.ncbi.nlm./sra/)下载每个生物体的RNA-seq数据,并进行比对和可视化,最终发现60个基因的外显子-内含子边界不正确,并根据定位结果对编码序列(CDS)进行校正。然而,43个质体仅代表了目前可用的质体序列的一小部分,亲缘关系较远的不是很适用。 2544-质体数据集:为了克服43-质体数据集的限制,将43个质体与另外2501个从公共数据库获得的质体结合,形成了2544个质体数据集。2501条注释是通过序列相似性比较整理的。在2544个质体中,已经注释了118个以上的基因,其中80个基因数量最多,数量最少的是559个质体中的ycf15基因。这80个蛋白质编码基因和4个rRNA基因被用于注释。 以上这两个数据库都是在2019年开发的,有一定的时代局限性,但在当时是非常实用和准确的。目前NCBI更新了大量的叶绿体基因组,对于单个叶绿体的注释而言,我们更加推荐上次的注释方法。CPGAVAS2还可以针对序列处理重复序列和密码子偏好性,我们会补充在下期的介绍中。 Postscript: 1.感谢王雪老师的提醒,我们及时处理了CPGAVAS2这个网页版的宕机问题。这个网站运行过程偶尔会出现小问题,如果我们未能及时发现,欢迎您随时联系我们。 2.很多老师提到了线粒体的注释问题,因为目前植物线粒体没有很好的标准,暂时没有较好的注释工具,请各位老师耐心等待。 |
|