分享

gnomAD数据挖掘系列 MNV变异的深入研究

 生物_医药_科研 2019-03-25

gnomAD数据挖掘系列

MNV变异的深入研究

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言

核心内容

MNV(Multi-nucleotide variants)变异是指(通常定义为一定距离内)两个或以上的变异在同一条染色体上出现,MNV的变异组合作用可能会影响到生物学及临床遗传学的决策结果,gnomAD小组对125,748外显子组数据和15,708全基因组测序数据的MNV变异数据进行了变异发现(call variant),统计及生物学意义分析,分别从MNV变异的分布,发生机理及遗传疾病分析角度对数据做了深入解释。

本期参考文献

0

研究背景

在遗传学分析中,

编码区变异通常对应氨基酸的变异分析,

但多数情况下,

每个变异都会单独分析对氨基酸的影响,

这是因为

不同的变异通常都会发生在不同密码子上

可以认为相互独立

因此MNV变异是个容易被忽视的现象。

但当MNV发生在同一个密码子内时,

变异之间便不是独立关系,

都会对同一个氨基酸造成联合影响,

例如下图中的例子:

当变异独立分析时

会分别形成一个错义与同义变异

但联合分析后

会形成一个无义变异

很可能会得到完全不同的结论。

认识到MNV的重要性后,

gnomAD团队对数据库中的MNV变异

进行深入分析,

从不同角度对数据进行挖掘,

下面就看看具体有哪些内容。

1

整体思路

gnomAD的MNV分析流程如下:

找到所有高质量的MNV变异

分析MNV变异的生物功能影响

研究MNV变异的发生机制

统计不同机制MNV变异规律

下面就具体说明每个步骤的意义。

找到高质量MNV变异

对于数据分析来说,

拿到高质量的数据非常关键,

如果数据中充斥大量的干扰数据,

很可能会得不到有意义的发现,

甚至得到错误的结论。

gnomAD设计了MNV的分析流程,

通过测序reads分析单倍体型,

并使用了trios数据作为验证数据,

通过验证数据调整流程结构及参数,

最终流程的结果与trios数据的一致性>99.8%。

MNV变异的功能影响

得到MNV数据后,

对变异数据进行了功能注释,

重点分析2bp以内的MNV变异

(可能会影响同一个氨基酸),

功能影响被分为下图中的类型。

gnomAD分析

高限制基因(见oe值说明文章)的MNV,

发现MNV造成的无义变异的数量

显著小于其他类型,

与常规的LOF变异统计结果一致,

侧面反应了MNV注释与oe值分析的可信度。

MNV的变异机制

MNV的变异与SNP/indel的发生机制不同,

由于MNV涉及两个以上的变异,

gnomAD将MNV分为三个类型:

先后变异事件

一次性事件

特殊序列事件

先后变异事件产生的MNV指的是,

MNV中的不同变异发生时间不同,

先发生的变异对后发生的变异通常独立,

但特殊情况下可能有相互影响,

如当一个变异发生后,

序列环境由非CpG变成了CpG序列,

由于CpG序列变异率增加,

发生MNV变异的概率也会随之增加。

一次性事件产生的MNV的意思是,

在DNA复制时同时发生的变异,

当DNA复制由zeta聚合酶催化时,

由于zeta聚合酶的较高错误率,

会在复制过程中随机引入MNV变异。

特殊序列事件指的是,

复杂串联重复序列在复制时,

会发生随机的滑动现象,

导致重复数发生变化,

重复数的反复变化导致对应的MNV发生。

不同机制MNV变异规律

对三种变异机制的数据

(先后变异事件/一次性事件/特殊序列事件)

分别进行基因组范围与细分类型统计后,

发现变异存在特定规律,

如一次性事件中,

90.8%的GA都会变异为TT

80.5%的GC都会变异为AA

主要统计结果如下图:

细分类型的MNV变异统计

全部MNV变异的分布统计

根据ENCODE数据库中的注释数据,

对基因组不同功能区域统计后发现,

不同功能区域的MNV发生规律不同,

如内含子区域

更容易发生CG->TA与CA->TG变异,

而转录起始位点

更容易发生AG->CC变异。

2

注意事项

需要注意的是

目前MNV分析主要为连续核苷酸类型,

其他距离的MNV由于功能分析相对困难,

因此不再文章的考虑范围之内。

对于变异机制分类,

作者认为目前的分类可能过于简单,

其他机制如重组过程形成的MNV等

未包括在内。

虽然gnomAD

是目前最大的人群测序数据库,

但是对于基因组所有可能的变异,

gnomAD数据库只涵盖了一小部分

(例如只覆盖了~0.005%的MNV),

不能确定是否反应人类真实的变异分布。

以上因素在深入使用数据时需要注意。

3

临床意义

当MNV中的变异不是独立关系时

对于临床分析的意义便非常重要,

关键的目的是注意MNV的联合影响,

目前需要特别是gained和rescued无义变异,

不要由于错误的独立分析造成结果的误判。

4

延伸问题

目前对于MNV的分析局限于一个密码子以内,

MNV的可以联合作用于多个氨基酸,

例如MNV发生于同一个结构域中等(如下图),

对于其他形式的联合分析

还需要更多的相关研究。


4

小结

这又是一篇gnomAD数据库的深入挖掘,

同时也是多组学的又一次联合

(gnomAD + encode),

相关数据已嵌入gnomAD浏览器及公开下载,

数据库还有大量的可挖掘空间,

期待gnomAD更多的分析成果。

如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论

NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。

『广告时间』

bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES)

上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。

上海瀚垚生物  (www.56dna.cn)

我们为您提供优质的基因检测服务:

A、低成本即可获得更高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。

B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。

C、快速的实验周期,大部分项目20个工作日可完成报告。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多