针对叶绿体基因组注释,我们已开发有CPGAVAS2工具,具体使用方法可以查看叶绿体基因组系列往期推文。由于物种的多样性以及参考基因组质量良莠不齐,我们通过CPGAVAS2或者其他注释程序得到的结果需要进一步手动校正。然而,哪些基因的注释错误需要手动校正,手动排查起来过于繁琐,因此我们开发了CPGView工具用于基因组可视化以及注释错误检测,助力叶绿体基因组相关研究。 叶绿体基因组系列推文: (1)零基础教程 | CPGAVAS2 快速,准确的叶绿体注释工具(附保姆级教程) (2)CPGAVAS2命令行版 |一次准确高效的注释300个叶绿体基因组?! (3)CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误。 (4)(本期):CPGView——叶绿体基因组结构可视化与注释错误检测工具 (5)(下一期):CPGAVAS系列筹备中…… 植物线粒体基因组系列推文筹备中…… 第三期推文我们初步介绍了CPGView-RSG的初步开发版本以及使用方法,再经过同行评议之后,我们根据审稿人的建议做出了部分修改,本次修改更有利于注释错误的判断,并且丰富了基因组可视化的形式。 首先,我们修改了冗长的程序名字,把CPGview-RSG修改为CPGView。在原有的基础上,它可以对叶绿体基因组的注释进行快速检测,提供一个QC文件,方便阅览可能的注释错误。除此之外,绘制基因组图谱的时候添加了变异位点功能,并且可以查看叶绿体基因组的SNP或者RNA编辑事件。该程序已制作成一个网站,为大家提供在线服务。 网站首页: 使用方法 步骤一:点击 DrawMap 步骤二:提交数据。一共有三种数据提交方法。 方法1:点击选择文件,提交本地GenBank格式文件,然后点击Submit。 方法2:输入NCBI GenBank Accession Number,如NC_000932,然后点击Submit。 PS:此方法适用于有NCBI登录号的物种,可以快速访问结果。 方法3:提交本地GenBank格式文件的同时,可以根据情况,上传vcf格式文件,然后点击Submit。 PS:这个VCF文件建议使用gatk软件生成的版本,用于可视化SNP位点。 步骤三:结果查询。一般会提供一个结果查询号,一般可以在1-2分钟后查询结果。 步骤四:结果下载。 方法1:直接复制结果查询号到下面方框,点击提交,即可查看结果。 方法2:点击ViewMaps,在方框粘贴结果查询号,点击提交,即可查看结果。 结果文件解读: 提交结果查询号后,会得到如下结果,其中包含4个方面的信息。 1. Inputfile 可查看提交的文件信息。 2. Maps 2.1 The cpg circular genome map 展示叶绿体基因组图谱。 2.2 The cis-splicing gene map 展示叶绿体基因组中顺式剪接基因。可以快速确认顺式剪接基因的位置信息,以及是否被注释出来。 2.3 The trans-splicing gene map 展示叶绿体基因组的反式剪切基因。注:如果该图片无法正常显示则代表rps12基因注释错误。 3. Repeat elements 展示叶绿体基因组的重复序列分析结果。其中包括微卫星重复(Short Tandem Repeats (STR)/ Simple Sequence Repeats (SSR) / Microsatelite sequences)、串联重复(Long Tandem Repeats)和散在重复(Dispersed Repeats)。具体的分析方法和结果描述,在网页已有详细的标注。 4. Other files 4.1 The intermediate files in tar.gz format 点击此链接,可以下载包含全部分析结果的压缩包。 4.2 The QC report for the GBF file 此报告详细展示了基因组的注释信息,是注释检测的核心文件。该报告即结果压缩包里面以.log.txt为后缀的文件。 具体包含了如下7个内容: (A)可查看基因组的蛋白质编码基因结构,以及可能注释丢失的蛋白质编码基因信息。 (B)可查看具有不同长度的多拷贝基因信息。 (C)可查看常见的含有内含子(intron-contained)的基因信息。 (D)可查看具有内部终止密码子的基因信息。 (E)可查看具有非标准起始密码子的基因信息。 (F)可查看具有非标准终止密码子的基因信息。 (G)可查看具体基因个数,此外还会展示每一个基因的起点终点信息。 4.3 The running log 展示程序运行情况。 CleanSeq工具 CPGView程序还提供CleanSeq工具。对于一些含有非法字符或简并碱基的基因组,提交数据时,会提示需要清除这些碱基,这时候就需要用到CleanSeq工具。 CleanSeq工具使用方法: 1. 点击 CleanSeq 2. 两种数据提交方法 方法1:输入NCBI GenBank Accession Number,如NC_000932,然后点击Submit。 方法2:点击选择文件,提交本地GenBank格式文件,然后点击Submit。 3.结果展示 提交数据后,出现如下结果页面,点击Clean FAS file,即可查看或下载clean后的序列文件。使用该序列文件重新注释,得到GenBank格式文件,即可在CPGView程序进行注释分析。 作者:倪阳,陆骞淇 |
|