结构变异(SV)属于遗传变异的一个重要内容,但由于其分析难度,例如结果准确性与解读参考信息不足,在常规遗传学临床检测中通常是个空白地带,gnomAD通过对数据库中的14981个全基因数据进行SV分析和统计,并从遗传学角度进行生物学意义分析,从而建立了目前最大的人群SV参考数据库。当对样本进行SV数据分析时,可以参考相应SV人群频率信息,为临床决策提供更多参考信息。 注:文章尚在预览阶段,尚未正式见刊 0 背景介绍 随着二代测序的进一步普及, WGS在遗传病领域的应用的逐渐增加, 虽然WGS可以提供 比WES测序更多的变异信息, 但大多数的分析难度非常高, 由于目前对基因组功能区域的研究 尚在进展阶段, 因此WGS的大多数变异所处区域功能 尚不明确, 如非编码区的snv/indel以及结构变异等, 很难从遗传学角度给出合理解释, 这就为临床决策带来了极大的困难。 多数WGS发现的变异都位于非编码区 为了解决上述问题, 世界范围都在建立基因组信息的数据库, 如encode,GTEx, Roadmap Epigenomics等, 都在标注基因组的功能区域, 为非编码区域的生物学分析提供信息。 除了功能区域注释外, 结构变异的分析也是一个难点, 由于结构变异影响的结果 通常难以从生物学角度分析, 如跨过多个功能区域, 是否影响基因组三维结构等, 今天要讲的gnomAD的SV数据库, 虽然依然难以解决SV的生物学解释问题, 但可以从统计学角度, 给SV数据分析提供有效的参考信息。 1 分析过程 gnomAD的挖掘过程相对稳定 1. 发现高质量SV变异 2. 对变异进行统计分析 3. 从生物功能角度进行分析 4. 从疾病数据进行验证 2 具体过程 发现高质量SV变异 首先选择通过样本QC的14,216个WGS数据, 用一套成熟的分析流程 (通过trios数据验证)分析SV数据, SV数据包括19种类型 (4种软件分析不同变异类型), 如deletions, duplications, inversions, insertions等, 并通过trios数据 做流程验证和计算de novo变异率, 最后从12,549样本中 得到个382,460SV变异数据。 不同类型SV说明 SV分析流程说明 对变异进行统计分析 得到SV数据后, 根据相关信息进行统计分析, 参考信息有人群信息,变异种类等, SV类型的常规统计分析 统计数据中有几个关键结论: SV变异有人种特异性 SV多数为罕见变异 (人群频率小于1%) SV多数长度较短且越长越罕见 每个基因组都有数千个SV变异 (中值8,202) 生物学角度分析 除了常规的统计分析, gnomAD还通过结合现有生物学信息进行分析, 例如变异在染色体功能区域分布, 影响编码区域的SV功能分析等 SV类型与基因组位置的相关性分析 结合基因组信息分析的主要结论有 deletion和inversion变异比例 分别为最高和最低 SV变异总体在染色体上分布不均一 (端粒和着丝粒比例偏高) 不同SV类型在染色体分布各有特征 影响编码区的SV结论重点是 造成相关基因LOF的SV变异频率 与oe值线性相关 即从SV层面验证了oe值的可信度 (上期提到MNV与oe的一致性) SV功能影响和oe值的一致性分析 从疾病数据验证 通过对英国BioBank的对应分析, 通过比较gnomAD 与已知genomic disorders (GD)数据, 发现相关疾病的携带率结论多数一致, 证明SV数据库的可信度。 ![]() 和BioBank数据对比分析 3 辅助临床分析 目前参考gnomAD-SV数据库, 可以过滤掉WGS中大多数常见SV变异, 现有样本通过过滤, 通常可以得到10个左右的特有SV变异, 通过设置不同的过滤参数, 可以有效减少临床决策的分析范围。 ![]() gnomAD-SV数据的数量优势辅助临床分析 目前SV数据已经在gnomAD浏览器上展示, 可以随时参考目的SV的相关信息 ![]() gnomAD浏览器示意 4 注意问题 虽然目前gnomAD有大量的SV参考数据, 但仍需要注意以下问题: 相比SV变异的多样性, 数据库样本数量仍然偏少, 尤其是一些人群数量(如东亚人) NGS对于SV的分析能力仍然有瓶颈, 例如三代长测序的SV结果, 会比二代多三倍以上的数量, 因此要注意NGS分析能力的局限性。 5 小结 gnomAD又一次开花, 这次是提供了SV参考数据, 给临床决策提供了有力的数据参考 又减轻了WGS的分析压力。 gnomAD的想象空间还有很多, 期待下一个挖掘方向。 如果对文章内容有评价或不同看法, 欢迎到行业大咖顾大夫创建的论坛中讨论 ![]() NGS基因诊断率能力提高之路径 ![]() 多维度、多学科、多角度,合共同之力解决问题。 『广告时间』 bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES) ![]() 上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。 上海瀚垚生物 (www.56dna.cn) ![]() 我们为您提供优质的基因检测服务: A、低成本即可获得更高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。 B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。 C、快速的实验周期,大部分项目20个工作日可完成报告。 感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施! |
|