软件安装是生物信息实战中最基础的技能之一,只有确保软件安装无误,后续使用起来才会得心应手,不会有很多的bug。juicer软件提供了Hi-C数据一键化分析的pipeline, 这样高度的封装使得用户操作起来更加简便,当然分析能力强大的同时其依赖的软件就会越多,安装过程的复杂程度也会有所提高,本文主要记录下该软件的安装过程,可以分为以下几个步骤 1. 安装依赖软件juicer核心采用java语言进行开发,同时内置了perl, python, bash等开发的脚手架脚本。在序列比对环节使用了bwa软件,而后续操作比对产生的bam文件,会用到samtools软件。所以需要安装以下软件 java perl python GNU utils bwa samtools
这些软件是生信领域的基本软件,其安装过程就不详细展开了。 2. 建立目录结构juicer软件要求一个固定的目录结构,新建一个名为juicer 的目录,该目录即为软件的安装目录,在该目录下必须有以下4个子目录 references 目录用于存放参考基因组相关文件,work 用于存放样本的序列文件和分析结果,scripts 用于存放软件运行所需的脚本,restriction_sites 用于存放参考基因组酶切图谱。
3. 下载juicer源代码从github上下载juicer和jcuda的源代码,放置到scripts 目录下。juicer可以在单机或者集群系统上运行,其中间脚本也对应了不同的系统,示意如下 其中的CPU 目录就是单机服务器,而AWS , LSF , PBS 等对应公有云和不同的集群系统。以CPU 为例,下载过程如下 # 下载源代码 git clone https://github.com/aidenlab/juicer.git # 重命名为scripts目录 ln -s juicer/CPU scripts cd scripts/common wget https://hicfiles./public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar 4. 准备参考基因组文件在reference 目录下为参考基因组相关文件,其实就是对应的fasta序列文件和bwa 索引,示意如下 hg19.fasta hg19.fasta.sa hg19.fasta.ann hg19.fasta.amb hg19.fasta.pac hg19.fasta.bwt 自己根据需要从UCSC,NCBI等数据库中下载基因组fasta文件,并用bwa建立索引就可以了。 在restriction_sites 目录下参考基因组酶切图谱,通过jucier内置的generate_site_positions.py 脚本可以产生,该脚本位于源代码中的misc 目录下,支持直接输出以下4种内切酶的酶切图谱 HindIII DpnII MboI Sau3AI
用法如下 generate_site_positions.py HindIII hg19 hg19.fasta 第一个参数为内切酶的名称,第二个参数为自定义的基因组版本,第三个参数为基因组fasta文件的路径,输出文件的名称为第二个参数和第一个参数用下划线链接,后缀为txt , 上述代码的输出文件为 hg19_HindIII.txt
5. 准备样本的fastq序列执行完前4步软件就已经安装好了,软件运行时对样本文件的存放位置也有要求,必须位于work 目录下,以样本名作为一个子目录,序列文件存放于fastq 目录下,示意如下 /opt/juicer/work/MBR19/fastq /opt/juicer/work/MBR19/fastq/chr19_R1.fastq.gz /opt/juicer/work/MBR19/fastq/chr19_R2.fastq.gz 关于安装成功后的目录结构,可以参考以下链接 https://bcm.app./v/juicerawsmirror/folder/11284128669
juicer的安装过程算不上复杂,就是注意事项有很多,操作起来较为繁琐,只需要按照以上步骤耐心操作,还是可以快速安装成功的。
|