五六年前我就写过GISTIC软件的安装及使用教程,不过那个时候针对的还是SNP6.0这样的拷贝数芯片。GISTIC这个软件在TCGA计划里面被频繁使用者,用这个软件的目的很简单,就是你研究了很多癌症样本,通过芯片或者肿瘤外显子测序+得到了每个样本的拷贝数变化信息,一般是segment结果,可以解释为CNV区域,需要用GISTIC把样本综合起来分析,寻找somatic的CNV,并且注释基因信息。
GISTIC软件的使用有两个难点,一是在linux下面安装matlab工作环境,二是如何制作输入文件。 官网下载软件的离线安装包官网是 :ftp://ftp.broadinstitute.org/pub/GISTIC2.0/  GISTIC软件的FTP站点下载这个文件(GISTIC_2_0_23.tar.gz)即可: GISTIC_2_0_23.tar.gz 596 MB
下载解压开来,代码如下: mkdir -p $HOME/biosoft/GISTIC cd $HOME/biosoft/GISTIC wget ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTIC_2_0_23.tar.gz tar zxvf GISTIC_2_0_23.tar.gz
全部搞定后文件夹架构如下:  c安装MCR_Installer因为GISTIC软件是一个MATLAB程序,在Linux环境下运行需要MCR_Installer。matlab毕竟是收费软件,而且是有界面的。虽然搞生物信息的都用R和linux替代了MATLAB,但是很多高大上的单位,比如大名鼎鼎的broadinstitute,仍然是用matlab的,所以他们开发的程序也会以matlab代码的形式发布。但是考虑到大多研究者用不起matlab,或者不会用,所以就用linux系统里面安装matlab运行环境来解决这个问题,我们仍然可以把人家写的matlab程序,在linux命令行下面,当做一个脚本来运行! 我们前面下载的GISTIC软件离线包里面是有一个 MCR_Installer 文件夹,里面就有 MCR_Installer压缩包可以解压然后安装。 cd MCR_Installer unzip MCRInstaller.zip chmod 744 installer_input.txt
因为是Linux,所以使用安静模式安装软件,没有鼠标点点点的交互动画过程啦。需要注意java环境哦,然后需要提前理解好 installer_input.txt 文件。 # destinationFolder=$HOME/biosoft/GISTIC/MATLAB_Compiler_Runtime # agreeToLicense=yes # mode=silent conda activate qc # 我的java在这个conda环境下面 ./install -mode silent -agreeToLicense yes -destinationFolder $HOME/biosoft/GISTIC/MATLAB_Compiler_Runtime
这个步骤需要理解好 installer_input.txt 文件,挺难的其实。 安装过程会有一个简单的log日志,需要留意一下,最后出现下面的话语代表成功安装: (Oct 08, 2020 16:29:36) Exiting with status 0 (Oct 08, 2020 16:29:36) End - Successful. Finished
一键式使用GISTIC软件首先需要修改那个GISTIC命令; $ cat gistic2 #!/bin/sh ## set MCR environment and launch GISTIC executable
## NOTE: change the line below if you have installed the Matlab MCR in an alternative location MCR_ROOT=$HOME/biosoft/GISTIC/MATLAB_Compiler_Runtime MCR_VER=v83
echo Setting Matlab MCR root to $MCR_ROOT
## set up environment variables LD_LIBRARY_PATH=$MCR_ROOT/$MCR_VER/runtime/glnxa64:$LD_LIBRARY_PATH LD_LIBRARY_PATH=$MCR_ROOT/$MCR_VER/bin/glnxa64:$LD_LIBRARY_PATH LD_LIBRARY_PATH=$MCR_ROOT/$MCR_VER/sys/os/glnxa64:$LD_LIBRARY_PATH export LD_LIBRARY_PATH XAPPLRESDIR=$MCR_ROOT/$MCR_VER/MATLAB_Component_Runtime/v83/X11/app-defaults export XAPPLRESDIR
## launch GISTIC executable $HOME/biosoft/GISTIC/gp_gistic2_from_seg $@
修改的地方很少,就是MCR_ROOT这个变量,以及全路径调用gp_gistic2_from_seg命令而已。 以后每次运行超级简单: conda activate qc $HOME/biosoft/GISTIC/gistic2 -h
每个项目都会生成segment结果文件,完整的运行命令是: basedir=`pwd`/gistic2_results mkdir -p $basedir echo --- running GISTIC --- segfile=`pwd`/cnvkit_final_call.seg refgenefile=$HOME/biosoft/GISTIC/refgenefiles/hg38.UCSC.add_miR.160920.refgene.mat $HOME/biosoft/GISTIC/gistic2 -b $basedir -seg $segfile -refgene $refgenefile \ -genegistic 1 -smallmem 1 -broad 1 -brlen 0.5 -conf 0.90 -armpeel 1 -savegene 1 -gcm extreme
绝大部分参数其实都是默认值,示例代码原样仿写的。 如果想知道这个GISTIC软件结果图表文件的生物学含义,或者TCGA数据库的CNV文件的GISTIC软件运行方式,我们大约一个星期后继续在生信技能树写教程哈! 参考教程:
|