分享

基因诊断的“搅局者”:一文读懂人类基因组中的假基因

 生物_医药_科研 2019-10-24

人类有多少个基因?

什么是基因?

什么是假基因?

假基因从何而来?

如何识别假基因?

假基因有何作用?

什么是核线粒体假基因?

假基因对遗传检测有何影响?

如何区分假基因?

临床遗传检测中有哪些常见的假基因?

人类有多少个基因?

2-3万?假基因呢?

GENCODE数据库注释的基因信息显示,人类基因组共有60603个基因,其中,假基因有14739个。

人类基因命名委员会(HGNC)给出的基因统计显示,人类基因组共有41475个基因,其中,假基因有13343个。

由此看出,不同数据库或者说不同标准统计出的基因数目是有差异的,这主要是目前科学研究还未能准确一致的识别出所有基因,目前的基因识别都是基于一定的流程、算法和研究证据,是一个动态的过程。

目前认为在人类基因组中共有4-6万左右的基因,这包括了蛋白编码基因(protein-coding gene)、非编码RNA基因(non-coding RNA gene)、假基因(pseudogene)、免疫球蛋白/T细胞受体基因片段(Immunoglobulin/T-cell receptor gene segments)等。我们平时所说的人类有2-3万左右的基因,主要是指的蛋白编码基因(即功能基因)。

什么是基因

在知网工具书馆检索“基因”,《生物化学与分子生物学名词》等中文书籍给出的基因定义,是指编码蛋白质或RNA等具有特定功能产物的遗传信息的基本单位,是染色体或基因组的一段DNA序列。这里有个重要的标准,就是“特定功能产物”,很明显这是个广义的非标准的标准。

我们平时谈论的,尤其是在临床遗传检测中谈论的基因,一般仅是指的编码蛋白的基因。最广为参考的就是OMIM数据库,此数据库中的4150个基因,是与疾病关系比较密切、分子基础比较清楚的基因。

什么是假基因

1977 年,Jacq 等在非洲爪蟾基因组中发现了一段不转录的核苷酸序列,并且这段序列与编码 5S rRNA 的功能基因高度相似,因此被定义为假基因(Pseudogene)。

与真基因(功能基因)相对,《遗传学名词》等中文书籍给出的假基因定义,是指与功能基因序列相似,但不产生有功能产物的基因。Pseudogene数据库给出的定义为:“Pseudogenes are genomic DNA sequences similar to coding genes but without coding potential. They are regarded as defunct relatives of functional genes(假基因是指与编码基因序列相似、但不存在编码潜能的一段基因组DNA序列,被认为是与功能基因相关的非功能基因。).”。

目前普遍认为具有以下两种特征的核苷酸序列称为假基因:一是与功能基因的核苷酸序列具有高度相似性;二是不具有转录功能或者转录但不能翻译成蛋白质。

假基因从何而来?

根据假基因的形成机理,可划分为 3 种类型的假基因,即复制型假基因(Duplicated pseudogene)、单一型假基因(Unitary pseudogene)和加工型假基因(Processed pseudogene)。

复制型假基因是基因组DNA 串联复制或者染色体不均等交换过程中基因编码区或调控区发生突变,导致复制后的基因失去正常功能而成为假基因。

单一型假基因是原本具有功能的单一拷贝基因在编码区或调控区发生自发突变(Spontaneous mutations),导致该基因无法转录和翻译而成为假基因。

复制型假基因和单一型假基因又被称为未加工型假基因 (Unprocessed pseudogene),因为它们都是直接由 DNA 序列演化而来,具有内含子-外显子的结构和调控元件。

加工型假基因是由 mRNA 转录本逆转录成 cDNA 后随机整合到基因组,由于插入位点不合适或者序列发生突变而失去正常功能而形成的假基因。

加工型假基因在基因组的位置是随机的,而复制型假基因通常是在亲本功能基因(Parent gene)附近。

如何识别假基因?

针对全基因组内大规模的识别假基因,可采用生物信息学的方法解决。鉴定假基因的主流生物信息学分析软件有 3 种:PseudoPipe,RetroFinder 和 PseudoFinder。不同的流程和算法,识别的假基因会有差异。

假基因数据库和识别程序

假基因有何作用?

假基因被认为是无功能的基因组化石。在有关分子进化的研究中,假基因是至关重要的,因为它们提供了在没有进化压力的情况下基因组DNA如何改变的记录,并且可用作确定更大基因组范围内核苷酸取代、插入和缺失的潜在速率的模型。

随着分子生物学技术的发展,越来越多的研究证明了假基因具有重要的生物学功能。假基因可与功能基因竞争性结合 miRNA,从而调控功能基因的表达;假基因还可产生内源性小干扰 RNA 抑制功能基因的表达;甚至有的假基因还可以编码具有功能的蛋白质。

同时,曾“死去”的假基因有时可重获新生,对新基因的产生及功能扩展有所贡献。因此,在某种程度上,假基因是生物体的基因贮备库,亦可被称为原基因(Protogene)。

已报道的假基因在相关癌症等疾病中的作用机制

假基因和真基因之间的区别(界限可能是模糊的)

真假基因的定义是基于原有的研究和认识,尤其是以是否具有“功能产物”为区分标准时,真假基因的区分很难精准界定,因为我们对基因产物的了解还很有限。从6万个基因,对应22万个转录本就可以感受到基因产物的复杂性。假基因和真基因之间的区别可能是模糊的,并没有一个绝对的分界线。有研究表明,在以往认为具有编码功能的基因中,1/5的基因极有可能是假基因。

什么是核线粒体假基因?

遗传物质从线粒体到核的转移以及它们整合到核基因组中是一个连续而动态的过程。核基因组中的线粒体DNA(mtDNA)片段以非编码序列形式并入,称为核线粒体假基因(NUMT-pseudogenes)。numt假基因整合到核基因组中可能在各种病理和衰老的发展中起作用。由于共扩增,numt假基因在使用PCR方法分析细胞DNA的游离mtDNA时可能会产生严重偏差。通过优化实验或者生物信息学算法,可以降低numt片段对线粒体DNA检测结果的干扰。

线粒体假基因插入核基因的机制

线粒体DNA被认为通过几种不同的途径进入细胞核。

(A)迄今为止,最受支持的途径是异常线粒体的降解;

(B)线粒体区室的裂解;

(C)线粒体DNA在细胞核内的包裹;

(D)线粒体与细胞核之间的直接物理缔合和膜融合;

(E)进入细胞核的线粒体DNA可以通过非同源末端连接(NHEJ)的机制整合到核染色体中。

多态性或致病性的核线粒体假基因

内圈表示人线粒体DNA(NC_001807),外圈表示numt插入。浅绿色(numts在参照基因组存在)或暗绿色(numts从参照基因组缺失)表示多态性numts。红色表示致病性numts。当numt插入基因内,以该基因的名称表示。

核线粒体假基因在人基因组中的分布

假基因对遗传检测有何影响?

假基因和功能基因具有很高的序列相似性,在遗传检测中,尤其是使用短读长的高通量测序时,可能难以区分reads来源,这会导致给出错误的结论,或者产生与临床信息或遗传学常识有悖的结果。

如何区分假基因?

实验方面:

○设计特异性引物或者大片段扩增,确保扩增产物的特异性;

○使用电泳等梯度检测方法,确认扩增产物是否和预期长度一样;

○ 对于线粒体基因检测,也可以通过实验优化去除核DNA干扰。

数据分析解读:

○ 通过生物信息学算法优化,过滤掉假基因的reads;

○ 若检测到变异的基因存在对应的假基因,可以通过与变异位点连锁的非同源区碱基,来判断变异位置;

○ 若NGS检测到的遗传变异,无法区分变异位于假基因还是真基因,那就需要使用其它方法确认,如long-PCR、巢式PCR等。 

临床遗传检测中有哪些常见的假基因?

人类有上万个假基因,但并不是所有存在假基因的基因,在检测到变异后都需要特殊验证。需要特殊考虑的主要是同源性高的基因,也就是无法区分变异位于假基因还是真基因。其实很多假基因相对真基因有很多的多态区域或者变异区域,因为假基因缺乏选择压力(中性进化),相对真基因来说假基因突变频率更高,当非同源区间隔小于NGS读长时,NGS数据完全可以区分变异来源。

目前已知的、与疾病关系密切的主要有96个假基因或高度同源基因(数据来源于GeneReviews)。比如与戈谢病相关的GBA基因(假基因GBAP),与21羟化酶缺乏症相关的CYP21A2基因(假基因CYP21A1P)、与α地中海贫血相关的HBA1、HBB基因(假基因HBM、HBZP1、HBQ1),与肿瘤相关的PTEN基因(假基因PTENP1)等。

除了假基因会干扰遗传检测结果判读外,高度同源的功能相似基因(如HBA1和HBA2,SMN1和SMN2等)也会相互干扰,这增加了遗传分析解读的难度。其中,SMN2基因与SMN1基因具有高度同源性,仅在各自的3'端有5个单核苷酸的差别,但SMN2仅产生10%全长转录产物,属于准“假基因”

以地中海贫血基因检测为例,我们来看一下假基因或高度同源基因对遗传检测的影响,并给出具体的解决方案。

对于α地贫基因簇,HBA1(α1)和HBA2(α2)基因是编码α珠蛋白的高度同源基因(同源性约94%),同时存在同源基因HBZ(ζ)和假基因HBZP1(假ζ)、HBM(假α)、HBQ1(θ),并且α地贫高发缺失变异。

基因间高同源性和缺失变异高发增加了NGS方法检测地贫基因的难度。

人类血红蛋白基因结构和不同发育时期的血红蛋白组成示意图

迈基诺基于GenCap + NGS技术开发了地中海贫血基因热点筛查产品,最大程度上解决了地贫基因间高同源性和缺失高发的问题,主要说明如下:

1. 基于DNA双链探针的基因捕获专利技术,探针更稳定,避免了探针降解导致的非特异性捕获,从源头上避免多重比对(冗余)reads的产生。

2. 探针整体加密,并扩展捕获区域,对地贫基因进行全长捕获,在300X的深度测序下,更准确的进行缺失变异识别。

3. 通过断点探针处的reads分析缺失变异的断点位置,对缺失变异识别更精准。

4. HBA1和HBA2具有高同源性,对于α地贫最常见的HbCS、HbQS和HbWS突变,通过连锁探针捕获的测序reads,可以分辨出变异的来源。

5. 由于假基因和功能基因之间具有大量的非同源区(如HBA1和假基因HBM同源性比对结果所示),且间隔明显小于NGS的reads长度,因此通过生物信息学手段可以进行reads精准比对。

α地贫基因特殊捕获探针设计

HBA1基因和假基因HBM同源性比对

总结

1.人类基因组中,假基因大量存在,是有待探索的未知世界。

2.假基因和真基因之间的区别可能是模糊的,并没有一个绝对的分界线。正所谓“假到真时真亦假,真到假时假亦真”。

3.与真基因高度同源的假基因或同源基因会干扰基因变异的解读,可能需要特殊的实验方法和生信分析方法鉴别。

人类基因组是微观的星辰大海,

目前我们对其了解还非常有限。

要想在广袤的宇宙中不迷失方向,

需要有精准的导航系统。

对于探索人类基因组而言,

高效准确的基因捕获技术是精准的导航仪。

迈基诺GenCap+NGS系列产品,为遗传病筛查、诊断,肿瘤分型、靶向用药、预后监测等临床需求提供了强有力的保障。

参考文献

Abascal F , Juan D , Jungreis I , et al. Loose ends: almost one in five human genes still have unresolved coding status[J]. Nucleic Acids Research, 2018.

Zheng D , Gerstein M B . The ambiguous boundary between genes and pseudogenes: the dead rise up, or do they?[J]. Trends in Genetics, 2007, 23(5):219-224.

Hazkani-Covo E , Zeller R M , Martin W , et al. Molecular Poltergeists: Mitochondrial DNA Copies (numts) in Sequenced Nuclear Genomes[J]. PLoS Genetics, 2010, 6(2):e1000834.

Yao Y G, Kong Q P, Salas A, et al. Pseudomitochondrial genome haunts disease studies[J]. Journal of Medical Genetics, 2008, 45(12):769.

Gaziev A I, Shaikhaev G O. Nuclear mitochondrial pseudogenes[J]. Molecular Biology, 2010, 44(3): 358-368.

Song H, Buhay J E, Whiting M F, et al. Many species in one: DNA barcoding overestimates the number of species when nuclear mitochondrial pseudogenes are coamplified[J]. Proceedings of the national academy of sciences, 2008, 105(36): 13486-13491.

Ring J D, Sturk‐Andreaggi K, Alyse Peck M, et al. Bioinformatic removal of NUMT‐associated variants in mitotiling next‐generation sequencing data from whole blood samples[J]. Electrophoresis, 2018, 39(21): 2785-2797.

Zheng D , Gerstein M B . The ambiguous boundary between genes and pseudogenes: the dead rise up, or do they?[J]. Trends in Genetics, 2007, 23(5):219-224.

Salmena L . Pseudogene Redux with New Biological Significance[J]. Methods Mol Biol, 2014, 1167(1167):3-13.

汤静思, 杨明耀, 李英,等. 假基因的功能及其在癌症疾病中的重要作用[J]. 遗传, 2015, 37(1):8-16.

刘国庆,白音宝力高,邢永强,假基因研究进展[J].生物化学与生物物理进展,2010.

http://rna./dreamBase/

https://www./human/stats.html

https://www./download/statistics-and-files/

http:///Human/

编辑:Dr.李

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多