gnomAD数据挖掘系列 MNV变异的深入研究 好的工具,让复杂遗传病易于被诊断 如果觉得内容对您有用,欢迎分享 如果有不同观点或建议,欢迎留言 核心内容 MNV(Multi-nucleotide variants)变异是指(通常定义为一定距离内)两个或以上的变异在同一条染色体上出现,MNV的变异组合作用可能会影响到生物学及临床遗传学的决策结果,gnomAD小组对125,748外显子组数据和15,708全基因组测序数据的MNV变异数据进行了变异发现(call variant),统计及生物学意义分析,分别从MNV变异的分布,发生机理及遗传疾病分析角度对数据做了深入解释。 本期参考文献 0 研究背景 在遗传学分析中, 编码区变异通常对应氨基酸的变异分析, 但多数情况下, 每个变异都会单独分析对氨基酸的影响, 这是因为 不同的变异通常都会发生在不同密码子上 可以认为相互独立 因此MNV变异是个容易被忽视的现象。 但当MNV发生在同一个密码子内时, 变异之间便不是独立关系, 都会对同一个氨基酸造成联合影响, 例如下图中的例子: 当变异独立分析时 会分别形成一个错义与同义变异 但联合分析后 会形成一个无义变异 很可能会得到完全不同的结论。 认识到MNV的重要性后, gnomAD团队对数据库中的MNV变异 进行深入分析, 从不同角度对数据进行挖掘, 下面就看看具体有哪些内容。 1 整体思路 gnomAD的MNV分析流程如下: 找到所有高质量的MNV变异 分析MNV变异的生物功能影响 研究MNV变异的发生机制 统计不同机制MNV变异规律 下面就具体说明每个步骤的意义。 找到高质量MNV变异 对于数据分析来说, 拿到高质量的数据非常关键, 如果数据中充斥大量的干扰数据, 很可能会得不到有意义的发现, 甚至得到错误的结论。 gnomAD设计了MNV的分析流程, 通过测序reads分析单倍体型, 并使用了trios数据作为验证数据, 通过验证数据调整流程结构及参数, 最终流程的结果与trios数据的一致性>99.8%。 MNV变异的功能影响 得到MNV数据后, 对变异数据进行了功能注释, 重点分析2bp以内的MNV变异 (可能会影响同一个氨基酸), 功能影响被分为下图中的类型。 gnomAD分析 高限制基因(见oe值说明文章)的MNV, 发现MNV造成的无义变异的数量 显著小于其他类型, 与常规的LOF变异统计结果一致, 侧面反应了MNV注释与oe值分析的可信度。 MNV的变异机制 MNV的变异与SNP/indel的发生机制不同, 由于MNV涉及两个以上的变异, gnomAD将MNV分为三个类型: 先后变异事件 一次性事件 特殊序列事件 先后变异事件产生的MNV指的是, MNV中的不同变异发生时间不同, 先发生的变异对后发生的变异通常独立, 但特殊情况下可能有相互影响, 如当一个变异发生后, 序列环境由非CpG变成了CpG序列, 由于CpG序列变异率增加, 发生MNV变异的概率也会随之增加。 一次性事件产生的MNV的意思是, 在DNA复制时同时发生的变异, 当DNA复制由zeta聚合酶催化时, 由于zeta聚合酶的较高错误率, 会在复制过程中随机引入MNV变异。 特殊序列事件指的是, 复杂串联重复序列在复制时, 会发生随机的滑动现象, 导致重复数发生变化, 重复数的反复变化导致对应的MNV发生。 不同机制MNV变异规律 对三种变异机制的数据 (先后变异事件/一次性事件/特殊序列事件) 分别进行基因组范围与细分类型统计后, 发现变异存在特定规律, 如一次性事件中, 90.8%的GA都会变异为TT 80.5%的GC都会变异为AA 主要统计结果如下图: ![]() 细分类型的MNV变异统计 ![]() 全部MNV变异的分布统计 根据ENCODE数据库中的注释数据, 对基因组不同功能区域统计后发现, 不同功能区域的MNV发生规律不同, 如内含子区域 更容易发生CG->TA与CA->TG变异, 而转录起始位点 更容易发生AG->CC变异。 ![]() ![]() 2 注意事项 需要注意的是 目前MNV分析主要为连续核苷酸类型, 其他距离的MNV由于功能分析相对困难, 因此不再文章的考虑范围之内。 对于变异机制分类, 作者认为目前的分类可能过于简单, 其他机制如重组过程形成的MNV等 未包括在内。 虽然gnomAD 是目前最大的人群测序数据库, 但是对于基因组所有可能的变异, gnomAD数据库只涵盖了一小部分 (例如只覆盖了~0.005%的MNV), 不能确定是否反应人类真实的变异分布。 以上因素在深入使用数据时需要注意。 3 临床意义 当MNV中的变异不是独立关系时 对于临床分析的意义便非常重要, 关键的目的是注意MNV的联合影响, 目前需要特别是gained和rescued无义变异, 不要由于错误的独立分析造成结果的误判。 4 延伸问题 目前对于MNV的分析局限于一个密码子以内, MNV的可以联合作用于多个氨基酸, 例如MNV发生于同一个结构域中等(如下图), 对于其他形式的联合分析 还需要更多的相关研究。 ![]() ![]() 4 小结 这又是一篇gnomAD数据库的深入挖掘, 同时也是多组学的又一次联合 (gnomAD + encode), 相关数据已嵌入gnomAD浏览器及公开下载, 数据库还有大量的可挖掘空间, 期待gnomAD更多的分析成果。 如果对文章内容有评价或不同看法, 欢迎到行业大咖顾大夫创建的论坛中讨论 ![]() NGS基因诊断率能力提高之路径 ![]() 多维度、多学科、多角度,合共同之力解决问题。 『广告时间』 bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES) ![]() 上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。 上海瀚垚生物 (www.56dna.cn) ![]() 我们为您提供优质的基因检测服务: A、低成本即可获得更高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。 B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。 C、快速的实验周期,大部分项目20个工作日可完成报告。 |
|