随着物种参考基因组的不断完善,热门物种尤其是人类基因组已经更新了很多版本,而且各版本之间存在着差异,但在使用过程中我们经常会发现,新未必好。例如hg38虽然很新,但很多配套的注释数据,无论基因位置还是碱基坐标都是基于hg19、hg18甚至hg17来注释的,因此需要进行版本间的坐标转换。 各大主流生物信息网站也都有自己的基因组坐标转换工具,如NCBI remap支持BED,GFF,GTF,VCF等格式,UCSC 的 liftover tool只支持bed格式。这些在线工具在转换较大文件时都比较麻烦,而且支持的文件格式并不全面,今天为大家推荐一款超棒的坐标转换软件-CrossMap!它能支持的文件格式如下: 一.下载安装 CrossMap的详细说明介绍可参见它的主页:http://crossmap./。它其实是基于Python的,安装方式完全和安装Python模块一样。 如果你的Python已经安装python的pip模块的(PS:建议一定要安装pip模块,但凡涉及到安装Python模块时,有了它真的事倍功半!),那么直接安装即可: 如果您真的不想安装pip,那就从官网下载最新版安装包 https:///projects/crossmap/files/CrossMap-0.2.5.tar.gz/download,然后解压安装,运行如下命令: 这样之后程序就安装在您的python路径下,运行时直接调用即可。 二. 使用说明 首先下载基因组转换的chain文件,下载地址:https:///projects/crossmap/files/chain_files/,若刚刚下载了CrossMap的安装包,解压后的data文件夹内就已经有啦,目前可提供人类以及小鼠的chain文件: 假定我们手上有一批基于hg38基因组分析的突变列表,vcf格式,但大多数据库都采用的hg19坐标,因此这次以较常用的hg38ToHg19来转换突变vcf文件,首先查看软件说明: 我们转换的是vcf文件,所以再查看具体命令行,会有使用的example: 准备好需要被转换的vcf文件: 运行如下命令就可以啦: 可以看到结果文件中坐标已被转换: 除此之外,CrossMap支持的文件格式基本包括了所有日常生信分析中常用的格式,而且非常便捷,推荐使用~ |
|
来自: 小梦想在努力 > 《数据库/分析/可视化》