分享

Nature genetics下一个BWA GATK: genome graphs 可以进化的基因...

 生物_医药_科研 2019-01-28

Nature genetics下一个BWA+GATK: 

genome graphs可以进化的基因组数据

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言


先来点有意思的

硬核思路图自取


本期参考文献


0

从人类参考基因组说起

自人类基因组计划完成后,

通过测序得到基因组序列草图,

解决了数不清的遗传学问题,

致病基因定位

人类遗传差异性鉴定

GWAS分析等等

随着测序技术的进步,

基因组参考序列也越来越完善。


参考基因组也是测序分析的基石之一,

借助参考基因组序列,

各种测序数据才能得到变异相关信息,

并借助生物信息学的帮助,

建立各种参考数据库,

如refseq,ccds,encode等,

尤其是高通量测序的时代,

如果没有参考基因组作为分析基础,

海量测序数据的分析是难以想象的。


1

目前的分析流程

目前二代测序的数据分析,

流程相对固定,

测序数据比对+变异分析,

比对的过程是

将测序数据匹配到基因组的对应位置

通常用BWA软件从fastq数据得到BAM数据

变异分析过程是

得到参考基因组不一致的测序数据信息

通常用GATK工具包从BAM数据得到VCF数据

比对和分析过程,

都依赖于参考基因组数据,

核心目的是找到测序样本的特有基因型,

也就是和参考基因组不一致的部分。


2

参考基因组的局限

目前的参考基因组,

除了序列还进一步完善之外,

一个关键的局限性是

线性序列

意思是每个位置的参考碱基都是固定的。

这种线性基因组

虽然对严重遗传疾病分析影响不大,

但是从遗传学角度来说,

不同人之间的序列差异非常多样,

存在各种差异变异,

这些个体之间的差异变异,

可以给测序分析提供非常有用的信息,

例如GATK流程中

会利用人群变异信息做变异校正,

同时也会用样本集中分析的方法

(joint calling),

来提高变异的灵敏度与特异性。


但这些有用的遗传信息,

目前的线性基因组中是不包括的,

只能通过其他流程来补充,

这一方面会增加分析的复杂程度,

另一方面也会不可避免的造成信息丢失。


3

基因组序列+遗传学信息

= genome graphs

为了解决线性基因组的局限性,

便产生了genome graphs的概念,

genome graphs的主要思想是:

借助数学分支graph theory的思想

将遗传学信息和基因组信息整合

产生的新数据形式就是genome graphs

文章开头文献中使用的工具,

是七桥公司公开的一个genome graphs工具包,

这个工具包

将基因组序列和人群变异数据库的信息结合,

得到了包含人群遗传变异的参考基因组数据。

构建好基因组图数据后,

reads序列会通过哈希index,

在图基因组上寻找对应位置,

如果变异已经存在于图数据中,

会很快通过序列路径得到结果,

对于不存在于图中的变异,

会进行新变异的分析。


4

genome graphs的优势

genome graphs的优势在基因组序列中,

加入了其他遗传学信息,

这些信息在序列比对时能提供有效帮助,

目前加入的遗传学信息是1kg的变异数据,

包括snp,indel和sv数据,

这些数据可以

进一步提高变异的灵敏度与特异性。

另外一个优势是sv的分析,

二代测序分析sv通常需要其他软件的辅助,

但genome graphs通过加入的sv信息,

可以有效在比对过程中发现sv变异。

genome graphs还可以

通过不断加入新的变异数据,

来提高变异发现的能力,

意味着genome graphs可以通过数据积累,

信息变得越来越丰富,

这是目前的线性基因组无法实现的。


5

模型潜力

目前公开的软件,

暂时只能在基因组序列中

加入人群变异信息,

但作者计划会让基因组中

加入更多信息,

如AF,LD等信息,

并开发更多功能,

如同时分析群体样本等。


此外,作者还构想了其他领域,

如RNA-seq,CHIP-seq等的应用。

总之,genome graphs是一个重要的方向,

依靠graph theory强大的理论基础,

期待能有更多的潜能被挖掘。


最后

一起来看看genome graphs官方介绍吧

视频提供者

B站(bilibili)id: 大尾巴龙龙

还有更多遗传学视频,推荐大家关注


如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论


NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。


『广告时间』

bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内最优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES)

上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言


上海瀚垚生物  (www.56dna.cn)

我们为您提供优质的基因检测服务:

A、低成本即可获得最高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。

B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。

C、快速的实验周期,大部分项目20个工作日可完成报告。


感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施!

赶紧关注,让我们与您一起对话基因

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多