如何解决遗传分析中的隐患 ——基因结构注释不全 好的工具,让复杂遗传病易于被诊断 如果觉得内容对您有用,欢迎分享 如果有不同观点或建议,欢迎留言 0 本期要讲什么 当进行遗传分析时 经常会遇到如下情况 “OMIM中明确报道基因未发现可疑变异” “非编码区中发现一个罕见变异但无法分析” 这两种情况通常会导致 阴性或结果模糊的报告 这两类问题的一个可能原因是 基因结构注释不全 例如一些目前认为是 不重要非编码区的部分 其实有非常重要的生物学功能 而由于这些信息的缺失 导致测序时未覆盖这些区域 或者变异被标注为内含子变异 一个新的研究结果 可能会给这两类问题 带来解决的方向 这个研究的思路是 利用GTEx的RNA-seq组学信息 弥补缺失基因功能注释 提供更多分析的证据 1 从OMIM数据库说起 随着NGS技术的普及 越来越多的机构 把WES甚至WGS 当作遗传病分析的首选 孟德尔遗传疾病分析 最常用的参考数据库 非OMIM莫属 依靠其大量的专业人员维护 基因—疾病关系可信度非常高 是遗传分析证据的重要参考 2 遗传检测的变异注释 用WES或WGS做遗传病检测时 一个关键的步骤 分析结果中的变异性质 例如参考ACMG变异分类指南 对检测到的变异 进行致病性分类(例如pathogenic) 当目的基因上 未发现候选致病变异时 就只能出非阳性报告 在这个过程中 变异的注释非常依赖转录本参考数据库 例如refseq或ensembl 这些变异对基因的影响 直接影响ACMG指南的使用 但ACMG指南 对非编码区变异的证据支持很弱 所以非编码区的变异 基本不在遗传分析的分析范围之内 这可能会漏掉许多 非常重要 但由于基因功能注释不全 导致无法分析的 非编码区变异 3 如何解决注释不全 目前常用的基因注释数据库 refseq与ensembl 依赖常规数据库和生物信息学流程 对基因组进行基因标注 例如下图中的注释流程(ensembl与refseq注释流程) 但目前的注释数据中 有许多可能遗漏的部分 例如依赖同源基因的方法 会漏掉人类特有的基因 依赖转录组数据的方法 会漏掉很多差异表达的基因 由于流程中存在的问题 导致基因的功能注释不完整 从而影响遗传病分析时的判断 为了解决这个问题 一个来自多个研究机构的小组 利用GTEx数据库中的数据 弥补这些注释的空白 4 GTEx数据库是什么 GTEx数据库 是一个NIH支持的疾病研究项目 主要目的是研究 基因型与组织特异性基因表达的关系 研究变异在转录组水平的作用机制 因此数据库中 有大量人类组织的转录组数据 5 如何解决注释不全(续) 研究小组通过 研究41种不同组织的RNA差异 发现有很多转录数据 尤其是来自脑组织的RNA数据 在refseq或ensembl中未被注明 平均每个组织 有8.4M区域在ensembl v92数据库中 标记为非转录区域 不同组织 在GTEx数据中 发现在RNA中的区域 被ensembl v92数据库 标记为非编码区的部分 分析的具体过程在此不详细说明 主要思路如下 分析RNA数据中 跨越标注区域与未标注区域的部分 这些未标注的区域 通过参数优化和统计学检验 保留的数据 被认为是 有生物学功能但尚未标注的基因功能区域 这些标注差异 大多数都是由于 组织表达的差异性 导致参考数据库的信息缺失 通过对OMIM数据库的分析 发现63%的OMIM明确疾病相关基因 存在基因功能标注不全 其中72%的的标注不全对应疾病受累器官 脑组织的注释不全比例最大 6 数据的潜在价值 通过GTEx数据的补充 一些疾病的相关基因变异注释 可以变得更有参考价值 尤其是脑神经类疾病 由于其功能复杂性 组织特异转录现象非常普遍 而数据库中对特异转录标注非常缺乏 因此GTEx的挖掘数据非常适合这类疾病 对于其他组织的孟德尔疾病 GTEx的挖掘数据也会有潜在作用 文章中举了两个例子 例1: MYH3基因 MYH3基因会导致 distal arthrogryposis的多种型 通过GTEx的数据分析 发现有一段117bp 非保守但高限制的序列 只在肌肉组织中特异表达 但数据库中尚未标注 此段序列存在潜在的分析价值 例2: ERLIN1基因 ERLIN1基因 会导致spastic paraplegia 62型 此疾病的患者会有部分存在小脑症状 但原因尚未明确 通过GTEx数据库的分析 发现一段72bp的序列 只在小脑中表达 但这段序列同样尚未标注 7 总结 随着测序技术的发展 基因组序列也变得越来越完整 但对于基因组功能的标注 一直是个高难度的问题 通过其他组学数据的辅助 如RNA-seq,CHIP-seq等 会对基因组的功能注释提供很大帮助 当基因组功能注释更加完整时 会提供更丰富参考信息 辅助遗传病分析的决策 特别注明 GTEx分析的新表达区域 可能不在现有WES的target范围内 参考数据时请留意 参考的文章尚在预览阶段 相应数据也尚未放出 感兴趣的小伙伴 请持续关注文章的动态 如果对文章内容有评价或不同看法, 欢迎到行业大咖顾大夫创建的论坛中讨论 NGS基因诊断率能力提高之路径 多维度、多学科、多角度,合共同之力解决问题。 『广告时间』 bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内最优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES) 上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。 上海瀚垚生物 (www.56dna.cn) 我们为您提供优质的基因检测服务: A、低成本即可获得最高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。 B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。 C、快速的实验周期,大部分项目20个工作日可完成报告。 感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施! 赶紧关注,让我们与您一起对话基因 |
|