分享

人类不同版本基因组如何互相转换?

 小梦想在努力 2018-12-29

随着物种参考基因组的不断完善,热门物种尤其是人类基因组已经更新了很多版本,而且各版本之间存在着差异,但在使用过程中我们经常会发现,新未必好。例如hg38虽然很新,但很多配套的注释数据,无论基因位置还是碱基坐标都是基于hg19、hg18甚至hg17来注释的,因此需要进行版本间的坐标转换。

各大主流生物信息网站也都有自己的基因组坐标转换工具,如NCBI remap支持BED,GFF,GTF,VCF等格式,UCSC 的 liftover tool只支持bed格式。这些在线工具在转换较大文件时都比较麻烦,而且支持的文件格式并不全面,今天为大家推荐一款超棒的坐标转换软件-CrossMap!它能支持的文件格式如下:

一.下载安装

CrossMap的详细说明介绍可参见它的主页:http://crossmap./。它其实是基于Python的,安装方式完全和安装Python模块一样。

如果你的Python已经安装python的pip模块的(PS:建议一定要安装pip模块,但凡涉及到安装Python模块时,有了它真的事倍功半!),那么直接安装即可:

如果您真的不想安装pip,那就从官网下载最新版安装包

https:///projects/crossmap/files/CrossMap-0.2.5.tar.gz/download,然后解压安装,运行如下命令:

这样之后程序就安装在您的python路径下,运行时直接调用即可。

二. 使用说明

首先下载基因组转换的chain文件,下载地址:https:///projects/crossmap/files/chain_files/,若刚刚下载了CrossMap的安装包,解压后的data文件夹内就已经有啦,目前可提供人类以及小鼠的chain文件:

假定我们手上有一批基于hg38基因组分析的突变列表,vcf格式,但大多数据库都采用的hg19坐标,因此这次以较常用的hg38ToHg19来转换突变vcf文件,首先查看软件说明:

我们转换的是vcf文件,所以再查看具体命令行,会有使用的example:

准备好需要被转换的vcf文件:

运行如下命令就可以啦:

可以看到结果文件中坐标已被转换:

除此之外,CrossMap支持的文件格式基本包括了所有日常生信分析中常用的格式,而且非常便捷,推荐使用~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多