【原】使用fusioncatcher进行融合基因的分析

生信修炼手册 2019-12-24

展开全文

在某篇评估转录组各个分析流程所用软件的文章中，fusioncatcher 被评为分析融合基因的最佳工具，该软件的网址如下

https://github.com/ndaniel/fusioncatcher

这个软件的安装过程比较繁琐，依赖很多第三方软件，为了简化安装，官方提供了自动化的安装脚本, 用法如下

wget http:///projects/fusioncatcher/files/bootstrap.py -O bootstrap.py
python bootstrap.py -t --download

该脚本会自动下载依赖的软件包并安装。软件的使用相对简单很多，分为以下两步

1. 准备参考基因组

fusioncatcher也提供了准备参考基因组的脚本，该脚本会从Ensembl等网站自动下载数据，所以使用时需要联网，用法如下

fusioncatcher-build -g mus_musculus -o /db/mouse -w asia.ensembl.org

-g参数指定参考基因组的物种名称，-o指定输出结果的目录，-w参数指定ensembl web service, 即biomart的的网址。需要注意的是，-w参数一定要设置成上述示例中的样子，默认参数是不可以的，另外对于人和小鼠而言，因为会从gencode数据库下载文件，而gencode的FTP地址发生了变动，所以要手动修改源代码中gencode的FTP地址。

对于-o参数的取值，可以参考如下链接

ftp://ftp.ensembl.org/pub/current_fasta

该目录下每个物种对应一个文件夹，fusioncatcher就是根据-o参数的取值来下载对应物种的序列。

除了下载文件，该步骤还包括建立索引等费时较长的步骤，所以这一步的运行时间会比较久，需要5-10个小时。

对于human而言，官方提供基于Ensembl release 90版本建立的数据库，下载方式如下

mkdir -p /some/human/data/
cd /some/human/data/
wget http:///projects/fusioncatcher/files/data/human_v90.tar.gz.aa
wget http:///projects/fusioncatcher/files/data/human_v90.tar.gz.ab
wget http:///projects/fusioncatcher/files/data/human_v90.tar.gz.ac
wget http:///projects/fusioncatcher/files/data/human_v90.tar.gz.ad
cat human_v90.tar.gz.* | tar xz
ln -s human_v90 current