分享

CPGView | 叶绿体基因组结构可视化与注释错误检测工具

 生信药丸 2023-02-16 发布于贵州

       针对叶绿体基因组注释,我们已开发有CPGAVAS2工具,具体使用方法可以查看叶绿体基因组系列往期推文。由于物种的多样性以及参考基因组质量良莠不齐,我们通过CPGAVAS2或者其他注释程序得到的结果需要进一步手动校正。然而,哪些基因的注释错误需要手动校正,手动排查起来过于繁琐,因此我们开发了CPGView工具用于基因组可视化以及注释错误检测,助力叶绿体基因组相关研究。

叶绿体基因组系列推文:

(1)零基础教程 | CPGAVAS2 快速,准确的叶绿体注释工具(附保姆级教程)

(2)CPGAVAS2命令行版 |一次准确高效的注释300个叶绿体基因组?!

(3)CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误。

(4)(本期):CPGView——叶绿体基因组结构可视化与注释错误检测工具

(5)(下一期):CPGAVAS系列筹备中……

植物线粒体基因组系列推文筹备中……

      第三期推文我们初步介绍了CPGView-RSG的初步开发版本以及使用方法,再经过同行评议之后,我们根据审稿人的建议做出了部分修改,本次修改更有利于注释错误的判断,并且丰富了基因组可视化的形式。

       首先,我们修改了冗长的程序名字,把CPGview-RSG修改为CPGView。在原有的基础上,它可以对叶绿体基因组的注释进行快速检测,提供一个QC文件,方便阅览可能的注释错误。除此之外,绘制基因组图谱的时候添加了变异位点功能,并且可以查看叶绿体基因组的SNP或者RNA编辑事件。该程序已制作成一个网站,为大家提供在线服务。

网站首页:

使用方法

步骤一:点击 DrawMap

步骤二:提交数据。一共有三种数据提交方法。

方法1:点击选择文件,提交本地GenBank格式文件,然后点击Submit。

方法2:输入NCBI GenBank Accession Number,如NC_000932,然后点击Submit。

PS:此方法适用于有NCBI登录号的物种,可以快速访问结果。

方法3:提交本地GenBank格式文件的同时,可以根据情况,上传vcf格式文件,然后点击Submit。

PS:这个VCF文件建议使用gatk软件生成的版本,用于可视化SNP位点。

步骤三:结果查询。一般会提供一个结果查询号,一般可以在1-2分钟后查询结果。

步骤四:结果下载。

方法1:直接复制结果查询号到下面方框,点击提交,即可查看结果。

方法2:点击ViewMaps,在方框粘贴结果查询号,点击提交,即可查看结果。

结果文件解读:

提交结果查询号后,会得到如下结果,其中包含4个方面的信息。

1. Inputfile

可查看提交的文件信息。

2. Maps

2.1 The cpg circular genome map

展示叶绿体基因组图谱。

2.2 The cis-splicing gene map

展示叶绿体基因组中顺式剪接基因。可以快速确认顺式剪接基因的位置信息,以及是否被注释出来。

2.3 The trans-splicing gene map

展示叶绿体基因组的反式剪切基因。注:如果该图片无法正常显示则代表rps12基因注释错误。

3. Repeat elements

展示叶绿体基因组的重复序列分析结果。其中包括微卫星重复(Short Tandem Repeats (STR)/ Simple Sequence Repeats (SSR) / Microsatelite sequences)、串联重复(Long Tandem Repeats)和散在重复(Dispersed Repeats)。具体的分析方法和结果描述,在网页已有详细的标注。

4. Other files

4.1 The intermediate files in tar.gz format

点击此链接,可以下载包含全部分析结果的压缩包。

4.2 The QC report for the GBF file

此报告详细展示了基因组的注释信息,是注释检测的核心文件。该报告即结果压缩包里面以.log.txt为后缀的文件。

具体包含了如下7个内容:

(A)可查看基因组的蛋白质编码基因结构,以及可能注释丢失的蛋白质编码基因信息。

(B)可查看具有不同长度的多拷贝基因信息。

(C)可查看常见的含有内含子(intron-contained)的基因信息。

(D)可查看具有内部终止密码子的基因信息。

(E)可查看具有非标准起始密码子的基因信息。

(F)可查看具有非标准终止密码子的基因信息。

(G)可查看具体基因个数,此外还会展示每一个基因的起点终点信息。

4.3 The running log

展示程序运行情况。

CleanSeq工具

CPGView程序还提供CleanSeq工具。对于一些含有非法字符或简并碱基的基因组,提交数据时,会提示需要清除这些碱基,这时候就需要用到CleanSeq工具。

CleanSeq工具使用方法:

1. 点击 CleanSeq

2. 两种数据提交方法

方法1:输入NCBI GenBank Accession Number,如NC_000932,然后点击Submit。

方法2:点击选择文件,提交本地GenBank格式文件,然后点击Submit。

3.结果展示

提交数据后,出现如下结果页面,点击Clean FAS file,即可查看或下载clean后的序列文件。使用该序列文件重新注释,得到GenBank格式文件,即可在CPGView程序进行注释分析。

作者:倪阳,陆骞淇

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多