作者:charon 二代测序技术蓬勃发展,已经用于临床上辅助疾病诊断,利用二代测序数据挖掘孟德尔遗传病相关的基因及变异位点也是越来越普遍。近年来,研究人员开发出很多工具,帮助分析人员可以更简单,快速的分析数据。今天我们就来介绍3个常用的软件,利用父母-子代的trio家系数据来挖掘孟德尔遗传相关的变异。 一、GEMINI1、软件概述GEMINI ( GEnome MINIng ) 旨在为个人和医学遗传学开发的一个简单、灵活和强大的框架来探索遗传变异。GEMINI将遗传变异(VCF文件)和丰富的基因组注释集成到统一的数据库(sqlite)中,利用这个集成的数据库作为分析框架,可以充分利用SQL的快速计算能力。此外,通过定义样本关系的PED文件,GEMINI允许探索满足特定遗传模式(比如,隐性,显性等)的变异。 GEMINI 能在人类疾病遗传基础的广泛研究中应用,包括研究个人基因组,未解决的孟德尔疾病,探索大系谱中的罕见变异,以及全基因组病例对照研究。 可检测变异类型:SNPs, INDELs 和 structural variants。 官网:https://gemini./en/latest/index.html
2、软件安装GEMINI提供了一个自动安装脚本,非常方便: wget https://raw.github.com/arq5x/gemini/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools $data # $tools是软件安装路径,$data是软件数据库所在路径
export PATH=$PATH:~/gemini/bin
# 下载数据库
gemini update --dataonly --extra cadd_score
gemini update --dataonly --extra gerp_bp
注意事项,首先需要安装以下依赖包:
3、软件运行数据准备 运行命令
结果说明 首先,impact_severity这列表示变异的影响,值有HIGH、MED、LOW,通常过滤掉LOW对应的变异,剩下的变异位点将会急剧减少,一般只有几十到几百个。另外,该软件还将变异注释到了很多数据库,或者利用不同的方法对变异进行了注释,比如Clinvar,千人基因组,SIFT等,分析人员都可以根据自己的研究进一步过滤。 二、Exomiser1、软件概述
2、软件安装需要java环境、软件包和依赖数据库。 软件包可以直接下载解压,链接如下: https://data./exomiser/latest/exomiser-cli-12.1.0-distribution.zip 依赖数据链接如下: 3、软件运行数据准备
运行命令
结果说明 查看html文件,可以看到得分最高的基因及变异,html的详细解读可以参考 https://cloud.tencent.com/developer/news/390442 三、VAAST1、软件概述全称为Variant Annotation, Analysis, and Search Tool ,是一个集变异注释,分析和搜索的工具,整合氨基酸替换和等位频率等信息。其中pVAAST模型用于识别家系的突变分析,识别家庭成员在特定遗传模式中的变异情况,进而判断真正的致病突变。 2、软件安装压缩包获取地址:http://www./software/vaast.html 3、软件运行数据准备
运行命令
所有遗传模式的配置文件在目录$VAAST_dir/data/pvaast/下,根据自己的数据选择相应文件,然后修改文件内参数,主要修改项为:input_ped_cdr_files,pedigree_representatives,inheritance_model
结果说明 总结软件结果模拟数据测试结果: 从我自己的测试结果来看,GEMINI结果比较全面,但是假阳性比较多,需要另外过滤;Exomiser结果最好,假阳性结果也是最少的;VAAST的召回率比较低,会漏掉一些真阳性结果。 可检测遗传模式输入参数参考文献1、Paila U , Chapman B A , Kirchner R , et al. GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations[J]. PLoS Computational Biology,9,7(2013-7-18), 2013, 9(7):e1003153. |
|
来自: 菌心说 > 《生物信息学,生信,统计,数据分析》