Nature genetics下一个BWA+GATK: genome graphs可以进化的基因组数据 好的工具,让复杂遗传病易于被诊断 如果觉得内容对您有用,欢迎分享 如果有不同观点或建议,欢迎留言 先来点有意思的 硬核思路图自取 本期参考文献 0 从人类参考基因组说起 自人类基因组计划完成后, 通过测序得到基因组序列草图, 解决了数不清的遗传学问题, 如 致病基因定位 人类遗传差异性鉴定 GWAS分析等等 随着测序技术的进步, 基因组参考序列也越来越完善。 参考基因组也是测序分析的基石之一, 借助参考基因组序列, 各种测序数据才能得到变异相关信息, 并借助生物信息学的帮助, 建立各种参考数据库, 如refseq,ccds,encode等, 尤其是高通量测序的时代, 如果没有参考基因组作为分析基础, 海量测序数据的分析是难以想象的。 1 目前的分析流程 目前二代测序的数据分析, 流程相对固定, 测序数据比对+变异分析, 比对的过程是 将测序数据匹配到基因组的对应位置 通常用BWA软件从fastq数据得到BAM数据 变异分析过程是 得到参考基因组不一致的测序数据信息 通常用GATK工具包从BAM数据得到VCF数据 比对和分析过程, 都依赖于参考基因组数据, 核心目的是找到测序样本的特有基因型, 也就是和参考基因组不一致的部分。 2 参考基因组的局限 目前的参考基因组, 除了序列还进一步完善之外, 一个关键的局限性是 线性序列 意思是每个位置的参考碱基都是固定的。 这种线性基因组 虽然对严重遗传疾病分析影响不大, 但是从遗传学角度来说, 不同人之间的序列差异非常多样, 存在各种差异变异, 这些个体之间的差异变异, 可以给测序分析提供非常有用的信息, 例如GATK流程中 会利用人群变异信息做变异校正, 同时也会用样本集中分析的方法 (joint calling), 来提高变异的灵敏度与特异性。 但这些有用的遗传信息, 目前的线性基因组中是不包括的, 只能通过其他流程来补充, 这一方面会增加分析的复杂程度, 另一方面也会不可避免的造成信息丢失。 3 基因组序列+遗传学信息 = genome graphs 为了解决线性基因组的局限性, 便产生了genome graphs的概念, genome graphs的主要思想是: 借助数学分支graph theory的思想 将遗传学信息和基因组信息整合 产生的新数据形式就是genome graphs 文章开头文献中使用的工具, 是七桥公司公开的一个genome graphs工具包, 这个工具包 将基因组序列和人群变异数据库的信息结合, 得到了包含人群遗传变异的参考基因组数据。 构建好基因组图数据后, reads序列会通过哈希index, 在图基因组上寻找对应位置, 如果变异已经存在于图数据中, 会很快通过序列路径得到结果, 对于不存在于图中的变异, 会进行新变异的分析。 4 genome graphs的优势 genome graphs的优势在基因组序列中, 加入了其他遗传学信息, 这些信息在序列比对时能提供有效帮助, 目前加入的遗传学信息是1kg的变异数据, 包括snp,indel和sv数据, 这些数据可以 进一步提高变异的灵敏度与特异性。 另外一个优势是sv的分析, 二代测序分析sv通常需要其他软件的辅助, 但genome graphs通过加入的sv信息, 可以有效在比对过程中发现sv变异。 ![]() genome graphs还可以 通过不断加入新的变异数据, 来提高变异发现的能力, 意味着genome graphs可以通过数据积累, 信息变得越来越丰富, 这是目前的线性基因组无法实现的。 ![]() 5 模型潜力 目前公开的软件, 暂时只能在基因组序列中 加入人群变异信息, 但作者计划会让基因组中 加入更多信息, 如AF,LD等信息, 并开发更多功能, 如同时分析群体样本等。 此外,作者还构想了其他领域, 如RNA-seq,CHIP-seq等的应用。 总之,genome graphs是一个重要的方向, 依靠graph theory强大的理论基础, 期待能有更多的潜能被挖掘。 最后 一起来看看genome graphs官方介绍吧 视频提供者 B站(bilibili)id: 大尾巴龙龙, 还有更多遗传学视频,推荐大家关注 如果对文章内容有评价或不同看法, 欢迎到行业大咖顾大夫创建的论坛中讨论 ![]() NGS基因诊断率能力提高之路径 ![]() 多维度、多学科、多角度,合共同之力解决问题。 『广告时间』 bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内最优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES) ![]() 上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。 上海瀚垚生物 (www.56dna.cn) ![]() 我们为您提供优质的基因检测服务: A、低成本即可获得最高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。 B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。 C、快速的实验周期,大部分项目20个工作日可完成报告。 感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施! ![]() 赶紧关注,让我们与您一起对话基因 |
|