写在前面课题组目前做一些基因组相关工作。了解基因组的朋友应该明白,基因结构注释错误几乎遍布所有基因组,包括我们目前看到的大多数即使是发表在顶级期刊的工作。生物是复杂的,而算法是存在局限的。所以人工矫正基因结构注释往往是最终选择之一。目前,市面上基本只有一个工具可以做到,那么是一款叫做Apolle Browser的浏览器。现在已经是第二代【第一代似乎已经无法下载到】,一个常用的网页基因组浏览器JBrowser的一个插件实现。配置起来并不方便,涉及到各类软件的安装。所以最好的选择或许还是直接使用IGV。本文提到的改造,没有之前IGV-sRNA的改动大,主要原因是,我失败了。不过这并不影响目的的基本达成【失败只是相对于暂时定位过高的目标】。以下,直接讲述操作,作为课题组师弟师妹的使用指引。 主要分为三步:
第一步 - IGV中定区间我写工具,往往会考虑操作的难度。所以要求用户在IGV中定区间,我做了一些简单的东西,使得用户可以相对轻松的完成。 首先,使用IGV的区间工具,选中几个区间,你可以一次选择一个外显子,也可以使用多个有重叠的区间,覆盖一个外显子(后续会自动合并)。 随后,我继续使用区间工具,增加一些跟以上区间重叠的外显子区间 在Region Navigator中可以看到 这个窗口一般不关闭,完成一个基因之后,我个人的建议是,先Assign成一个基因,首先是选中这些区间,然后点击Assign 然后关闭小窗口,那么就会直接Assign一些信息上去 针对每一个基因,可以一直重复一个操作。那么就会有一系列的基因 第二步完成了你人工矫正的步骤之后,在IGV中导出regions.bed 随后,打开TBtools 将文件设置进去,注意到必须输入文件是一个,即regions.bed 点击Start,会在非常短的时间内完成。 这个生成的gff3文件,可以直接导入到IGV 于是,我们完成了基因的结构注释人工矫正。 我们手上的IGV是已经改造过的。所以,我们这个时候还可以做一个有趣的事情,直接点击对应的转录本 随后打开TBtools,黏贴进去 是的,你点击了一下转录本,就直接在剪切板中得到了全长CDS【这个功能是前几天我增加进去的】。 可以看到,我们确实完成了一个正确的基因结构注释的人工矫正。 写在后面当然,还有第三步,那么就是替换gff3,但是...暂时懒得写了。以后再算吧。 |
|