写在前面前述,为了开展基因组相关课题,获取准确的基因结构注释信息,我舍弃了 IGV-GSAme,因为他的实现不够优雅。基于多次尝试多次失败的基因组浏览器开发基因,我最后还是选择重新改造,并得到了 IGV-GSAman。这个软件推出来后,不少朋友都挺感兴趣。事实上,这块确实是刚需,主要场景有二:
那么如何做「基因结构注释矫正」?当然是使用 IGV-GSAman。自然,最好的证据是基因结构得到 RNAseq 测序数据支持,尤其是外显子边界和UTR部分。于是涉及到回帖,如此会有两个新场景:
对于前者,往往实施人员有足够的计算资源可以进行大规模RNAseq读段回贴;但对于后者,则往往不然,许多时候,我们可能只有一台内存 4g ( 8g ) 的笔记本,同时电脑的硬盘资源也不是很充裕。但是,我们就关注到几个基因,那么如何对着这几个基因进行充分的基因结构注释矫正?如何利用 RNAseq 测序数据? 为此,我犹豫了许久,也加上最近有个可能的项目申请,几个老师一起讨论到,干脆就写出来,方便大伙使用(PS:如果这个插件有遇到问题,不要来问我,我挺忙的,直接去 TBtools技能易物群 即是)。命名为 Target Genome Region Mapping。 功能简单介绍Target Genome Region Mapping 可以正常在 Windows (已测试)和 MacOS(没钱买设备,未测试)下使用。功能简单,基于用户提供的基因组序列以及目标基因组区间(一般为一些基因所在的染色体区间),进行有限制的 RNAseq 读段回帖。做了一些逻辑优化,所以整体表现跟进行全基因组回帖类似。 可以看到,是上下两个 Track (上面是 Target Genome Region Mapping 的结果,下面是全基因组作为参考输入的结果)的 MisMatch Pattern 是完全一样的,覆盖度只差1个read(这个是IGV窗口scale的问题,对基因结构注释矫正完全不影响),这说明不存在非特异性回帖。整体效果良好。具体放大这个区间来看 因为使用了 Target Region 限制,所以在现在区间外的部分,完全没有读段。那么好处是什么:
回到主题.... 插件的安装直接在 TBtools 的插件商店获取即可, 点击安装会跳转到奶牛快传,注意!文件夹中有一个是插件文件,另一个压缩包是示例数据,示例数据如不无需要,其实不用下载。 至于使用打开插件,按照界面文本提示操作即可, 输出文件是 SAM 格式(注意到,因为做了 Target Region Mapping,所以文件也很小,对硬盘大小要求也变低),几乎所有人都能干这事~ 实际示例按照界面提示,设置参数即可,其线程数自己调整下。输出目录最好自己创建一个。 支持批量输入,比如有10个样品的测序数据(双端,一共20个文件),可以一次丢入。速度还是比较快。 其实就是每个基因的染色体位置,因为假想目标就是矫正这些基因结构注释信息。或者说,具体查看。当然,其实如果你对其他区间,想看看他在不同样品里面到底有没有表达,你有很多几十个测序数据,想看看到底某个区间在那一套数据里面的测序深度最高,逻辑上,也可以试试。至于其他使用,大伙感兴趣都可以试试。 对于这个文件,直接使用 TBtools 的 SAMtools GUI Wrapper 插件,进行排序即可(这个插件也在插件商店可以下载,也支持批量操作)。 排序结束,可以看到输出文件 其中有了两个文件就可以直接用 IGV 进行可视化了。 缩小后 也可以直接导入 bed 为 Region of Interest,进行超便捷多基因快速矫正 写在最后路漫漫其修远兮~ 后来我仔细想想,写的每一个软件,每一个功能,似乎都是环环相扣,紧密关联。到底,还是期望能有更好用的工具,可以辅助更多科研工作人员开展工作,花更少的时间,做更好的工作。 |
|