分享

非同义单核苷酸变异的致病性预测工具

 思纠 2023-06-08 发布于云南
有任何疑问、批评及指导,请毫不犹豫地私信作者!

图片

染色体和基因变异通常分为5类:染色体非整倍性(Chromosomal aneuploidy, CA)、结构变异(Structural variations, SV)、拷贝数变异(Copy number variations, CNVs)、短插入/缺失(Short insertion/deletions,indels)和单核苷酸变异(Single nucleotide variations, SNVs)。发生在编码区的SNVs,又被划分为同义(Synonymous)和非同义(Non-synonymous)两种类别。非同义突变有无义突变(Nonsense mutation) 、错义突变(Missense mutation) 和移码突变(Frameshiftmutation) 3 种类别。发生在非编码区的突变和编码区的同义突变又称为沉默突变(Silent mutation) ,该类型突变不会改变蛋白质翻译。

在所有遗传变异类型中,错义突变是人类遗传变异中最常见的一类,根据错义突变是否对人体产生危害,分为中性和非中性突变(即致病性突变) 两种类别。

在上述人类遗传变异的研究中,突变和变异是两个常见的概念。相关学者把全球人类群体作为一个整体,在小于1%的人群中检测到的变异,称为突变(Mutation);反之,大于1%的变异称为多态性(Polymorphism);变异(Variant)是突变和多态性的统称。多态通常表现为人类身体外观的改变,如肤色、身高、眼睛等,并不具备致病性;而突变极有可能引起人类疾病,影响人类生存。

在所有的人类遗传变异类型中,非同义单核苷酸变异(Non-synonymous single nucleotide varia-tions, nsSNVs)约占90%。已有研究表明,近三分之一的nsSNVs 对人体健康有害,可导致疾病。超过 6000 种人类疾病是由nsSNVs引发的。除了对人体有害的nsSNVs外,还有约三分之二的nsSNVs并没有改变蛋白质的结构和功能表达,对人体并不构成危害,表现为中性。有害的 nsSNVs 可导致一般性疾病,甚至可导致癌症。针对癌症而言,在癌症基因组中检测到的大部分氨基酸替换对癌症产生和发展的影响很小或者没有影响,此类nsSNVs称为乘客突变(Passenger mutation),仅有小一部分 nsSNVs 会导致癌症,被称为驱动突变(Driver mutation),如血癌、口腔癌等。准确地区分驱动突变和乘客突变,对癌症的早期发现和治疗有着重大意义。

nsSNVs 致病性研方法

图片

快速准确地预测 nsSNVs 的致病性,有助于理解发病原理和设计新药物,也是生物信息领域的重要研究课题之一国内外研究的主流方法,包括基于突变频率的方法基于通路的方法结合基因组和转录信息的方法基于序列进化保守性的方法基于序列和结构混合特征的方法以及综合评价类方法。

图片

基于突变频率的方法

基于频率的突变预测方法是早期癌症驱动基因分析的常用方法,主要通过观测突变频率在中性样本(非致病性突变样本)和疾病样本(致病性突变样本)中的差异来进行判断,最具代表性的有MutSig和Oncodrive-fm。

MutSig通过分析基于背景突变率(Back ground mutation rate, BMR)相对突变丰度、基因内热点突变聚类情况,以及突变是否发生在被保护区域等三个方面,来预测突变的危害性。

由于 MutSig和 MutSigCV 难以鉴别具有低复发频率的驱动基因,Abel 等(2012)提出了Oncodrive-fm方法,这是一种不依赖于突变复发的候选癌症驱动基因检测方法。该方法检测多个肿瘤样本,发现具有高功能影响 (Functional impact, FI) 趋势的基因或模块,与此同时,重点评估 2 个指标: (1) 跨多个肿瘤样本,评估所有基因的体细胞 SNVs 的 FI 值; (2) 评估每个基因或基因模块中 FI 变异的重要性。因此,在检测候选驱动基因或基因模块时,Oncodrive-fm 可以有效识别低复发性候选癌症驱动因子。

基于通路的方法

基于细胞信号传导与调节通路的预测方法,在预测突变是否对人体健康产生危害时,通常会考虑突变的生物效应,即基因间的相互作用和已知的生物通路,代表性方法有 Paradigm-Shift和HotNet2。

2012年提出的Paradigm-Shift方法:在一组通路相互作用的背景中,该方法使用置信传播算法推断基因表达活性和拷贝数情况,同时检测其下游邻域中基因的预期活性相对于其上游的预期差异,利用基因的已知遗传相互作用,激活或失活这些相互作用的基因,从而判定突变是否导致蛋白质功能丧失或获得。该算法使用来自基因下游输出的预测结果调节上游输入,因此被认为能够为突变注释提供更准确的信息。

2015年提出的HotNet2:使用“绝缘”热扩散理论,对扩散网络中的热量来源进行编码,分析基因突变及其局部拓扑结构,最终发现具有较高热分数的“热”子网,鉴别出具有显著突变相互作用的基因组。具体地,HotNet2 对来自癌症基因组图谱(The cancer genome atlas, TCGA)的12种癌症类型,共3281个样本,进行了突变网络分析,鉴别出16个具有显著突变的子网络,其中包括众所周知的癌症信号传导通路,以及在癌症中具有较少特征作用的子网络;此外,还发现在许多突变子网中,样本突变表现出共发性,即子网的多个基因在多种癌症中均具有体细胞(即非生殖性细胞)突变。

结合基因组和转录信息的方法

结合基因组和转录信息的方法是利用大量数据库中存放的人类遗传变异数据,多角度全面分析人类疾病(包括癌症) 与nsSNVs 之间的相关性,揭示疾病的发病机理,进而加快推动有关疾病治疗药物的研发,代表性方法有 CADD (Combined Annotation Dependent Depletion)

2014 年提出的 CADD 方法:用以预测 nsSNVs 致病性。该方法不仅考虑了生物进化保守性,而且将转录、调节以及蛋白质水平等信息纳入变异数据特征表示中,使用C-score来衡量编码区和非编码区变异的有害程度; CADD 的 web server 提供了基因组所有 86 亿个可能 SNVs 的 C-scores 和 indels 评分等。

基于序列进化保守性的方法

基于序列进化保守性的方法,主要通过搜索蛋白质数据库,获得查询序列的同源蛋白质多序列比对结果,根据不同的计算准则,得到该查询序列特定位置处的氨基酸进化保守性,代表性方法有SIFT和Mutation Assessor。

SIFT是通过计算序列中每个氨基酸残基突变为其它类型的可能性,并将序列划分为保守区和非保守区,在保守区的突变倾向于有害突变,在非保守区的突变倾向于中性突变。SIFT不仅可以预测天然的错义突变,还可以预测基于实验室条件下的诱导突变。2018年3月,在SIFT 的 web server 中,更新添加了 SIFT for Genomes 和indels预测工具。cutoff<0.05,属于有害

Mutation Assessor:将序列比对结果进行聚类,然后将聚类结果转化为同源序列中家族和亚家族的保守模式,使用组合熵测量其家族及亚家族中氨基酸残基的进化保守性。在任何种类保守模式中的残基发生突变,都有可能影响蛋白质功能。

PROVEAN:也是一种利用多序列比对预测蛋白质中单个或多个氨基酸突变危害性的方法。与 Mutation Assessor与 SIFT不同的是,PROVEAN不仅计算感兴趣位置的氨基酸残基,而且衡量邻近侧翼序列的比对质量,使用基于区域的δ比对评分(Delta alignment score, DAS)来预测突变是否对人体产生危害。在2015年1月的更新中,PROVEAN 预测了Ensembl v66人类蛋白质中所有可能的SNVs和indels。值≤-2.5,属于有害

已有的非编码区突变预测工具CADD与FATHMM-MKL,本地运行均需要大量预先计算的信息,为了简化计算,便于预测,Capriotti等人于2017年开发PhD-SNPEL,仅使用基于序列特征(25个来自于序列编码,10个来自于PhyloP的保守分值),以0到1之间的概率值作为预测输出,大于0.5则认为突变对人体是有害的

基于序列和结构混合特征的方法

蛋白质功能和疾病之间的关系错综复杂,当目标蛋白质与环境分子之间有复杂相互作用时,仅依靠统计数据和进化统计分析,预测方法的性能往往受到限制。目前更多的方法是基于序列和结构混合特征进行预测,该类方法通常与机器学习相结合。即利用从序列和结构中获取的特征,训练机器学习分类器模型,预测变异是否对人体产生危害。

PolyPhen-2除使用传统特征外,还计算了蛋白质氨基酸残基接触信息,如与杂原子接触(Contacts with heteroatoms) ,链间接触( Interchain contacts) 以及与功能位点接触(如 BINDING、ACT_SITE、LIPID 以及 METAL等),PolyPhen-2 将这些功能属性作为突变数据的特征标识,使用Nave Bayes 模型进行预测。在预测错义突变时,其输出结果与几种常见的预测,SIFT POVEAN和 FATHMM的预测结果为“Neutral”和“Deleterious'两种类别,而PolyPhen-2预测包括benign、possibly damaging、probably damaging等 3 种结果

FATHMM 利用隐马尔可夫模型(Hidden Markov models, HMM)计算序列的保守性,预测蛋白质错义突变的功能效应。它不仅可以预测编码区的 nsSNVs,还可以对非编码变异(Non-eoding variants, ncV)进行预测。在FATHMM的nsSNVs 致病性预测工具中,包括基于序列保守的加权和未加权两种类别,其中加权算法加入了序列保守性和致病性权重,可以解释序列对变异的耐受性。

CRAVATL、VESTL以及SNAP也是基于序列和结构混合特征的 nsSNVs 致病性预测方法。已有研究表明,nsSNVs的危害性与其周边的微环境息息相关。CRAVAT和VEST将变异的序列微环境和局部蛋白质结构性质,作为样本数据的特征标识,即提取氨基酸残基的物理化学性质、蛋白质或 DNA 多序列比对得分、基于区域的氨基酸序列组成、预测的局部蛋白质结构性质等86个特征,再使用机器学习分类器进行预测。SNAP通过计算基于多序列比对的进化保守性得分,结合蛋白质三维结构信息,使用神经网络模型来预测蛋白质序列中的突变,并将预测结果转化为0 (Neutral,中性突变)和1 (Deleterious, 有害突变)两种类别。

综合评价类方法

综合评价类方法利用多个 nsSNVs 致病性预测工具的输出结果,设定综合评价得分准则,结合机器学习技术,预测 nsSNVs 的致病性。综合评价类方法的预测结果通常优于单一预测工具。

Condel最初整合了5种预测工具(即SIFT、Polyphen-2、MAPP、LogR Pfam E-value和 Mutation Assessor的输出结果,通过加权平均计算共有的有害性评分,并将其作为 nsSNVs 致病性预测的依据。在 Condel 最近一次更新中, 确定 Mutation Assessor和FATHMM组合能够得到的预测结果。在Condel 的 web server 中,提供了预先计算的人类蛋白质全部编码基因的 5 种工具Condel、SIFT、PolyPhen-2、Mutation Assessor以及FATHMM的预测结果。

与Condel类似,TransFIC也是一种转换蛋白质突变功能影响评分的预测工具。TransFIC整合SIFT、Polyphen-2和Mutation Assessor的预测得分,将该分数与种系中具有相似功能注释的基因 SNVs 的分数分布进行比较,并使用 Z-score 来转换得分,结果表明,对种系 SNVs 耐受性较差的基因突变得分被增大,相对耐受较好的基因突变得分被降低。TransFIC的预测结果能够提供 TransFIC 得分、基于SIFT 的 TFIC_SIFT 得分、基于 PolyPhen-2 的 TFIC_PPH2 得分以及基于 Mutation Assessor 的 TFIC_MA得分。与整合的3种预测工具相对应,TransFIC还给出 3 种输出标签: TFIC _ SIFT _LABEL、TFIC _ PPH2 _ LABEL 和 TFIC _ MA _LABEL。经过转换后,TransFIC 最终用 0、1 和 2代表突变的3种危害程度(Low、Medium、High) ,分值越大,突变的危害性越大

PredictSNP1对8种已有的预测工具(MAPP、PANTHER、nsSNPAnalyzer、PhD-SNP、PolyPhen-2、PolyPhen-1591、SIFT和SNAP)进行无偏估计,并将上述8 种预测工具中表现最佳的6种工具,组合成一致性分类器PredictSNP1,其web server提供了上述9种工具的预测结果。

PredictSNP2构建了覆盖不同类别(Regulatory、Splicing、Missense、Synonymous和Non-sense variants)的疾病相关变异预测模型,综合了6种工具(CADD 301、DANN38)、FATHMME43J、FitCons、FunSeq2和GWAVAl)的预测结果,将表现最好的5种工具的输出结果,转化为PredictSNP2共识评分,其 web server 提供了上述7种工具的预测得分。

REVEL 集成了13种预测方法(MutPred、FATHMM v2.3、VEST 3.0、PolyPhen-2、SIFTE、PROVEAN、Mutation Assessor、LRTE71、Taster、Mutation、GERP++、SiPhy、phyloP、phastCons)的输出结果。REVEL实验结果表明,其优于上述13种单一预测方法,同时也优于7种类似的集成预测方法(MetaSVM、MetaLR、KGGSeq、Condel、CADD v1.3、DANN和Eigen)

图片

借鉴上述预测方法所使用的特征,将突变的常用特征表示分为4种类别: (1) 基于蛋白质序列的特征; (2) 基于蛋白质结构的特征; (3) 突变位点微环境特征; (4)基于已有预测工具输出的特征。4 类特征表示方法可归纳如下。

基于蛋白质序列的特征

人类 nsSNVs 是否对人危害,与生物化过程息息在蛋白质关研究位置特异性得分矩阵(Position specific scoring matrixPSSM) 包含了生物信息,已被证明是 种非常有效特征。常使Position-specific iterated basic local alignment search tool (PSI-BLAST) 工 具搜 索 SwissPort数据为输入的待查询蛋白质序列同源蛋白质序列比对(Multiple sequence alignmentMSA) ,在 MSA 的基础上计算 PSSM 信息。

已有研究表明,突变是否发生在重要功能位点,对突变后蛋白质功能能否正常发挥有较大影响。例如,SAPRED通过查询 Swiss-Prot 数据库,确定突变是否发生在被注释为ACT_SITE 以及 METAL 等功能位点;PolyPhen-2通过查询蛋白质UniProtKB/Swiss-Prot数据库,确定突变是否发生在 DISULFID、SIGNAL、BINDING以及ACT_SITE等重要功能位点。在nsSNVs致病性预测研究中,尤其是蛋白质SNVs 的研究中,通常会将突变是否发生在活性位点(Active sites)、结合位点(Binding sites)、非球状区视为特征的重要组成部分。

突变点位性质(1) 物理化学/生物化学性质。在 nsSNVs 致病性预测研究中,许多文献将蛋白质突变位点的物理化学/生物化学性质作为特征的重要组成部分,如突变前后氨基酸亲水性(Hydrophilicity) 、疏水性(Hydrophobicity)、体积(Volume)、分子量(Molecular weight) 、电极性(Polarity) 等属性值以及突变前后变化值。

氨基酸的物理化学/生物化学属性值可通过氨基酸索引数据库(Amino acid index database,AAindex,https∶//www.genome.jp/aaindex/)查询得到。AAindex是一个数字索引数据库,代表氨基酸和氨基酸对的各种物理化学和生物化学特性,所有数据均来自于已发表文献;它由AAin-dex1(代表20个数值的氨基酸索引)、AAindex2(代表氨基酸突变矩阵)和AAindex3(代表统计蛋白质接触电位)等3个部分组成。

(2)替换打分矩阵BLOSUM和PAM。BLOSUM和PAM是蛋白质序列比对的替换打分矩阵,用于计算任意两条序列的相似性,发现两者的生物进化关系,进而有效地分析和预测基因功能。例如,使用PSI-BLAST计算PSSM信息时,默认的替换打分矩阵是 BLOSUM。在nsSNVs 致病性预测研究中,通过查询此两类矩阵,可以得到突变氨基酸对的替换打分值,并将其归为突变样本的特征组成部分。

基于蛋白质结构的特征分为两类∶

(1)蛋白质在Protein data bank(PDB)中有已知的三级结构,可直接提取结构信息;若蛋白质在PDB中存在已知的三级结构,则可利用 Dictionary of secondary structure in proteins(DSSP)、Biopython 中的 The PDB Module等工具,获得关于突变位点的二级结构(Secondary structure,SS)、溶剂可及表面积(Solvent accessible surface area,SASA)、无序区域(Disorder region,DR)、Phi-Psi二面角、原子的空间坐标(Atomic spatial coordinates)等结构信息,并将这些信息作为突变样本的特征组成部分。

(2)蛋白质三级结构未知,但可通过计算机软件模拟的方式得到蛋白质结构信息,并将这些预测信息纳入突变样本的特征表示中,丰富特征的同时,以期提高 nsSNVs 致病性预测的准确度。以下是几类常见的结构信息预测方法。

蛋白质三维结构预测:由ZhangLab研发 的  Iterative  threading  assembly  refinement(I-TASSER)和QUARK是全球领先的蛋白质三级结构预测工具。截至2020年9月25日,已有来自149个国家的136217个使用者,利用I-TASSER的 web server 预测了571 261个蛋白质的结构。I-TASSER  的返回结果包括预测的二级结构及对应得分、预测的溶剂可及性面积、预测的标准化B因子、I-TASSER使用的前10个threading模板以及预测的Top5模型等信息。在 nsSNVs 致病 性 预 测研究中,可以提取I-TASSER预测的部分相关结构信息,将其作为突变样本的特征组成部分。

相对溶剂可及性预测:已经有多种方法可以用于预测蛋白质的相对溶剂性(Relative solvent accessibility)。SANN是此类方法的一个代表,它为蛋白质序列中每个氨基酸残基提供3种概率值,即分别属于埋藏(Buried)、中间(Intermediate)和暴露(Exposed)的概率值。

二级结构预测:预测得到的二级结构(Predicted secondary structure,PSS)亦是一类非常有效的结构特征,可以通过PSIPRED工具预测获得。该工具为蛋白质序列中的每个氨基酸残基提供3个概率值,即分别属于Coil(C)、Helix(H)和Strand(S)的概率值。

无序区域预测:蛋白质的无序区域(Disorder)是指不具有固定的三级结构,部分或完全展开的区域。该区域被认为参与许多重要功能,如 DNA 识别、特异性调节等。已有研究表明,在无序区域中发生的突变,会对蛋白质的功能产生影响。蛋白质的无序区域可通过DISOPRED软件预测得到。

突变位点微环境特征

突变位点的微环境,可以由基于蛋白质三维结构的“邻居”(与突变位点空间距离小于特定范围)氨基酸残基构成,也可以由基于蛋白质序列的“邻居”(与突变位点在序列上小于特定长度范围)氨基酸残基构成。文献研究结果表明,单个氨基酸残基突变是否有害,通常与其微环境中氨基酸残基相关。因此,在包括nsSNVs 致病性预测在内的蛋白质相关研究中,通常会提取微环境范围内信息,并将其作为待研究问题的特征组成部分,以期丰富特征表示,提高预测性能。在提取微环境特征时,滑动窗口大小的确定是至关重要的一步。

nsSNVs 致病性预测方法比较

图片

图片

MCC 被认为是衡混淆矩阵最佳指标值范围是-1 1其中 1 预测真值完全相0 预测随机-1 示完全相反MCC 值越大分类效果越好

经典预测工具 SIFT、PROVEAN、PolyPhen-2、CADD具有较高的MCC。其中,SIFT和 PROVEAN是基于序列进化保守性的方法,构建查询序列的同源蛋白质多序列对比是其核心思想。

REVEL、DANN具有较高的 AUC。REVEL是一种综合评价类工具,它集成了13 种单一预测方法的输出结果,其预测性能优于13 种单一预测工具,同时也优于其它 7 种类似的综合评价类预测方法。DANN 使用了与CADD相同的数据集和特征,研究结果表明,基于深度学习框架的 DANN能更有效地捕获特征间的非线性关系。

各类预测工具
名词缩写

Site-Directed Mutate (SDM)

Rare Exome Variant Ensemble Learner (REVEL)

The pathogenicity Prediction through Logistic Model tree (APOGEE) 

Cancer-Specifific High-throughput Annotation of Somatic Mutations (CHASM) 

Homotopy optimization method (HOPE)

The Sorting Intolerant from Tolerant (SIFT)

Protein Variation Effffect Analyzer (PROVEAN)

Protein Analysis Through Evolutionary Relationships (PANTHER)

Functional Analysis through Hidden Markov Models (FATHMM)

Integrated Functional inference of SNVs in human (iFish) 

Screening for Non-Acceptable Polymorphisms (SNAP) 

Polymorphism Phenotyping v2 (Polyphen-2)

Pseudo Amino Acid Composition (PaPI)

Consensus deleteriousness score of missense mutations (Condel)

consensus Variant Effffect Classifification (COVEC)

Cancer-related analysis of variants toolkit (CRAVAT)

The Genome-wide annotation of variants (GWAVA)

The Combined Annotation Dependent Depletion (CADD)

Functional Analysis through Hidden Markov Models (FATHMMMKL)

图片

图片

图片

图片

基因变异相关的记录数据库

图片

The OMIM (Online Mendelian Inheritance in Man):是一个主要的人类基因和基因的数据库,涵盖了与疾病相关的遗传变异。OMIM主要研究基因型与表型之间的关系。

The KEGG database:对细胞通路的描述。它更常用于分析代谢途径,但它也包含与疾病相关的通路。

COSMIC:癌症中体细胞突变的目录,是一个专业资源,展示了与癌症有关的基因及其变异。

Disease Phenotype Resources DECIPHER:是使用集合资源的人类表型和基因组变异数据库;一个基于网络的,来自病人DNA分析的基因组变异数据资源和数据库。

GEO Profiles:记录单个基因表达谱


参考文献:

Hassan MS, Shaalan AA, Dessouky MI, Abdelnaiem AE, ElHefnawi M. Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity. Genomics. 2019;111(4):869-882. doi:10.1016/j.ygeno.2018.05.013

Hassan MS, Shaalan AA, Dessouky MI, Abdelnaiem AE, ElHefnawi M. A review study: Computational techniques for expecting the impact of non-synonymous single nucleotide variants in human diseases. Gene. 2019;680:20-33. doi:10.1016/j.gene.2018.09.028

葛 芳 胡 俊 朱一亨 於东军 非同义单核苷酸变异致病性预测研究综述

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多