分享

如何解决遗传分析中的隐患 ——基因结构注释不全

 生物_医药_科研 2019-01-07

如何解决遗传分析中的隐患

——基因结构注释不全

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言


0

本期要讲什么

当进行遗传分析时

经常会遇到如下情况

“OMIM中明确报道基因未发现可疑变异”

“非编码区中发现一个罕见变异但无法分析”

这两种情况通常会导致

阴性或结果模糊的报告


这两类问题的一个可能原因是

基因结构注释不全

例如一些目前认为是

不重要非编码区的部分

其实有非常重要的生物学功能

而由于这些信息的缺失

导致测序时未覆盖这些区域

或者变异被标注为内含子变异


一个新的研究结果

可能会给这两类问题

带来解决的方向

这个研究的思路是

利用GTEx的RNA-seq组学信息

弥补缺失基因功能注释

提供更多分析的证据


1

从OMIM数据库说起

随着NGS技术的普及

越来越多的机构

把WES甚至WGS

当作遗传病分析的首选

孟德尔遗传疾病分析

最常用的参考数据库

非OMIM莫属

依靠其大量的专业人员维护

基因—疾病关系可信度非常高

是遗传分析证据的重要参考


2

遗传检测的变异注释

用WES或WGS做遗传病检测时

一个关键的步骤

分析结果中的变异性质

例如参考ACMG变异分类指南

对检测到的变异

进行致病性分类(例如pathogenic)

当目的基因上

未发现候选致病变异时

就只能出非阳性报告

在这个过程中

变异的注释非常依赖转录本参考数据库

例如refseq或ensembl

这些变异对基因的影响

直接影响ACMG指南的使用


但ACMG指南

对非编码区变异的证据支持很弱

所以非编码区的变异

基本不在遗传分析的分析范围之内

这可能会漏掉许多

非常重要

但由于基因功能注释不全

导致无法分析的

非编码区变异


3

如何解决注释不全

目前常用的基因注释数据库

refseq与ensembl

依赖常规数据库和生物信息学流程

对基因组进行基因标注

例如下图中的注释流程(ensembl与refseq注释流程)

但目前的注释数据中

有许多可能遗漏的部分

例如依赖同源基因的方法

会漏掉人类特有的基因

依赖转录组数据的方法

会漏掉很多差异表达的基因


由于流程中存在的问题

导致基因的功能注释不完整

从而影响遗传病分析时的判断

为了解决这个问题

一个来自多个研究机构的小组

利用GTEx数据库中的数据

弥补这些注释的空白


4

GTEx数据库是什么

GTEx数据库

是一个NIH支持的疾病研究项目

主要目的是研究

基因型与组织特异性基因表达的关系

研究变异在转录组水平的作用机制

因此数据库中

有大量人类组织的转录组数据


5

如何解决注释不全(续)

研究小组通过

研究41种不同组织的RNA差异

发现有很多转录数据

尤其是来自脑组织的RNA数据

在refseq或ensembl中未被注明

平均每个组织

有8.4M区域在ensembl v92数据库中

标记为非转录区域

不同组织

在GTEx数据中

发现在RNA中的区域

被ensembl v92数据库

标记为非编码区的部分


分析的具体过程在此不详细说明

主要思路如下

分析RNA数据中

跨越标注区域与未标注区域的部分

这些未标注的区域

通过参数优化和统计学检验

保留的数据

被认为是

有生物学功能但尚未标注的基因功能区域


这些标注差异

大多数都是由于

组织表达的差异性

导致参考数据库的信息缺失

通过对OMIM数据库的分析


发现63%的OMIM明确疾病相关基因

存在基因功能标注不全

其中72%的的标注不全对应疾病受累器官

脑组织的注释不全比例最大


6

数据的潜在价值

通过GTEx数据的补充

一些疾病的相关基因变异注释

可以变得更有参考价值

尤其是脑神经类疾病

由于其功能复杂性

组织特异转录现象非常普遍

而数据库中对特异转录标注非常缺乏

因此GTEx的挖掘数据非常适合这类疾病

对于其他组织的孟德尔疾病

GTEx的挖掘数据也会有潜在作用

文章中举了两个例子


例1: MYH3基因

MYH3基因会导致

distal arthrogryposis的多种型

通过GTEx的数据分析

发现有一段117bp

非保守但高限制的序列

只在肌肉组织中特异表达

但数据库中尚未标注

此段序列存在潜在的分析价值


例2: ERLIN1基因

ERLIN1基因

会导致spastic paraplegia 62型

此疾病的患者会有部分存在小脑症状

但原因尚未明确

通过GTEx数据库的分析

发现一段72bp的序列

只在小脑中表达

但这段序列同样尚未标注


7

总结

随着测序技术的发展

基因组序列也变得越来越完整

但对于基因组功能的标注

一直是个高难度的问题

通过其他组学数据的辅助

如RNA-seq,CHIP-seq等

会对基因组的功能注释提供很大帮助

当基因组功能注释更加完整时

会提供更丰富参考信息

辅助遗传病分析的决策


特别注明

GTEx分析的新表达区域

可能不在现有WES的target范围内

参考数据时请留意


参考的文章尚在预览阶段

相应数据也尚未放出

感兴趣的小伙伴

请持续关注文章的动态


如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论


NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。


『广告时间』

bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内最优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES)

上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言


上海瀚垚生物  (www.56dna.cn)

我们为您提供优质的基因检测服务:

A、低成本即可获得最高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。

B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。

C、快速的实验周期,大部分项目20个工作日可完成报告。


感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施!

赶紧关注,让我们与您一起对话基因

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多