【文献解读】疾病的遗传基础（1）

生物_医药_科研 2019-07-18

展开全文

前言

当大多数人考虑疾病的遗传基础时，他们可能会想到罕见的单基因疾病，如囊性纤维化（CF），苯丙酮尿症或血友病，甚至可能是具有明显遗传成分的癌症（例如遗传的乳腺癌）。虽然遗传性疾病个别罕见，但它们约占罕见疾病的80%。罕见疾病的绝对数量意味着每17个人中约有1人受新生影响。此外，由于我们DNA的多种差异，我们的遗传构成在包括常见疾病的所有疾病过程中或多或少地发挥作用。这些差异中的一些，无论是单独的还是组合的，可能使个体更容易患一种疾病（例如一种癌症），但也可能使同一个体不易患上无关疾病（例如糖尿病）。环境（包括生活方式）在许多条件下（例如，与糖尿病相关的饮食和运动）起着重要作用，但我们对环境的细胞和身体反应可能因我们的DNA而异。免疫系统的遗传学在人群中存在巨大差异，决定了我们对病原体感染的反应。此外，大多数癌症是由个体一生中发生的遗传变化积累造成的，这可能受到环境因素的影响。显然，理解遗传学和基因组作为一个整体及其在人类群体中的变异，对于理解疾病过程是不可或缺的，而这种理解为治疗、有益的治疗和补救措施提供了基础。

由于存在如此多的遗传性疾病，因此在本次审查中不可能包含一些以上的例子来说明原则。有关特定条件的更多信息，有许多可搜索的互联网资源，这些包括遗传学家庭参考（https://ghr.nlm./），基因评论（https://www.ncbi.nlm./books/NBK1116/），部分国家人类基因组研究所（https://www./education/）和人类在线孟德尔遗传（https://www./）。在本综述中，将对分子生物学的基本原理和技术进行理解和认识，例如DNA结构和PCR，DNA学习中心可提供PCR的解释和动画（https://www./resources/）。这里的重点将放在人类疾病上，尽管定义我们理解的大部分研究都来自对具有相似或相关基因的动物模型的研究。

人类基因组和变异

人类基因组和人类基因组参考序列

产生人类的完整编码信息储存在我们细胞中存在的DNA中：人类基因组包含大约30亿bp的DNA。来自世界各地的科学家们在“人类基因组”计划中合作，生成了整个人类基因组的第一个DNA序列（2001年出版），并在接下来的几年中进行了许多补充和修正。人类和许多其他物种的基因组序列信息可通过多个门户网站免费获取，包括国家生物技术信息中心（NCBI; https://www.ncbi.nlm./）和Ensembl（http：// www.ensembl.org/）。

我们的大多数DNA以染色体的形式（核DNA或核基因组）存在于细胞核内，但线粒体（mtDNA或线粒体基因组）中也存在少量DNA。大多数人拥有23对染色体（图2），因此大部分DNA以两个拷贝存在，一个来自我们的母亲，一个来自我们的父亲。

图2 （G-banding）形成核型

（A）秋水仙素处理中期停滞的培养细胞，然后进行吉姆萨染色以产生特征性的明暗带。通常，暗带代表富含AT和基因贫乏的区域。（B）来自扩散的染色体成对排列以查看核型，通常使用Cytovision等专业软件。（C.）G-banding模式的图解表示，称为表意文字，用作参考。表意文字已经在着丝点（虚线）对齐;蓝色阴影区域变化很大。例如（B）中染色体13,14和15的p臂之间的差异。事实上，近端着丝粒染色体（13,14,15,21,22）的p臂都具有非常相似的含量，新生包括核仁组织区或NORs。每个NOR含有核糖体DNA（rDNA）的串联重复序列，新生编码rRNA。

人类核基因组编码大约20000个蛋白质编码基因，通常由蛋白质编码（外显子）和非编码（内含子）序列组成。我们的基因组还包含大约22000个仅编码RNA分子的基因;这些RNA中的一些形成翻译机制的组分（rRNA，tRNA），还有许多在细胞内发挥作用，包括调节其他基因的表达。事实上，现在人们认为，多达80%的基因组具有可能影响结构和功能的生物活性。人类基因组还包含超过14000个'假基因';这些是蛋白质编码基因的不完美拷贝，它们已经失去了编码蛋白质的能力。虽然最初被认为是进化遗物，现在有证据表明，有些假基因可能参与调节蛋白质编码。另外，假基因与正常基因之间的序列相似性可以促进使正常拷贝失活的重组，如在围产期致死戈谢病的一些病例中可见。此外，一些假基因有可能在基因治疗中被利用以通过基因编辑方法产生功能基因。染色体之间的基因分布不相等：19号染色体基因密集，而三体可存活的常染色体（13,18,21）相对基因贫乏（表1）。

表格1 人类染色体的DNA和基因含量

染色体	近似长度（bp）	蛋白质编码基因	非蛋白质编码基因	假基因
1	248956422	2047	1964	1233
2	242193529	1303	1605	1033
3	198295559	1075	1160	768
4	190214555	753	984	732
五	181538259	881	1200	710
6	170805979	1041	989	803
7	159345973	989	977	893
8	145138636	670	1041	629
9	138394717	778	786	678
10	133797422	728	880	568
11	135086622	1312	1053	815
12	133275309	1036	1197	627
13	114364328	321	586	378
14	107043718	820	857	519
15	101991189	613	986	513
16	90338345	867	1033	467
17	83257441	1185	1198	531
18	80373285	269	608	246
19	58617616	1474	895	514
20	64444167	543	594	250
21	46709983	231	403	183
22	50818468	492	513	332
X	156040895	843	640	872
ÿ	57227415	63	108	392
线粒体	16569	13	24

请注意，尽管这些数字看起来非常精确，但它们应仅作为指示，因为（i）每个个体的染色体将与参考序列不同，并且（ii）人类参考基因组序列不断更新并进行校正（此处的数据为来自GRCh38.p12，它代表了人类基因组的特定“构建”。注意，近端着丝粒染色体13,14,15,21,22的数据不包括p臂上存在的共有核糖体DNA阵列重复序列（参见图2）。来自Ensembl的数据，2018年6月。

从人类基因组计划的最开始，人们就认识到健康个体之间存在大量的DNA序列变异，因此没有所谓“正常”的人类DNA序列。但是，如果我们要描述DNA序列的变化，我们需要根据某些标准描述这些变化;该标准是人参考基因组序列。

变异与突变

遗传学家对突变的定义是“对DNA序列的任何遗传变化”，其中可遗传指的是体细胞分裂（组织中细胞的增殖）和种系遗传（从父母到儿童）。DNA的这种改变可能没有影响，但有时可能会导致个体的可观察到的差异（“表型”）。因此，在过去，人群中的这种改变，特别是当它们与疾病状态相关时，被称为“突变”。然而，对于许多人来说，这个术语具有负面含义，并且让人联想到科幻小说和僵尸电影中出现的“突变体”！因此，现代实践，特别是在医疗服务的背景下的医学遗传学，是指将参考序列的差异称为“变异”。变异可以进一步分类为良性（与疾病无关）或致病性（与疾病相关），尽管已经鉴定出越来越多的人类DNA变异，我们仍然不确定其效果;这些被称为“具有不确定意义的变种”或VUS（表2）。

表2国际癌症研究机构变种分类

变异类型	描述	监督建议	预测测试
5	绝对致病	根据现行指南进行全面高风险监测	为有风险的家庭成员提供基因检测
4	可能致病	根据现行指南进行全面高风险监测	为有风险的家庭成员提供基因检测
3	不确定	基于家族史和新生他已知风险因素的监测	没有提供基因检测
2	可能不致病	视为检测到“无突变”	没有提供基因检测
1	不致病	视为检测到“无突变”	没有提供基因检测

尽管该系统设计用于与癌症易感性中的潜在作用相关的变异分类，但它也可用于在新生他情况下对变异进行分类。

当群体中存在两个（或更多个）不同版本的DNA序列时，它们被称为“等位基因”：每个等位基因代表该序列的一个特定版本（或变异）。通过分析许多人类基因组，我们可以计算出特定变异在群体中发生的频率，通常表示为“次要等位基因频率”或MAF。在MAF值至少为1%的情况下，变异可称为“多态性”，尽管这是一个相当随意的标准。

单核苷酸变异：我们基因组中最常见的变异是仅影响一个碱基对（bp）的取代，称为单核苷酸变异（SNV）或单核苷酸多态性（SNP）（图1），取决于MAF。据估计，人类基因组中至少有1100万个SNP（平均每300bp约1个）。如果我们对地球上每个人的基因组进行测序，对于我们基因组中的大多数位置，我们也会发现至少一个具有SNV的个体。

图1 在人类基因组中发现的某些类型的变异

涉及一个或几个核苷酸的变异显示在染色体图标上方，以及下面的结构变异;在每种情况下，相对于参考序列描述变异。为了描述结构变异，A，B，C和D代表大的DNA片段;Y和Z代表来自不同染色体的DNA片段。

插入和缺失（插入缺失）：小于1000bp的插入或缺失在人类基因组中也相对常见，越小的插入缺失越多。

结构变异：结构变异定义为影响大于1000bp（1kb）的DNA区段的变异。它们包括易位，倒位，大缺失和拷贝数变异（CNV）。CNV是我们基因组的片段，其大小范围从1000到数百万bp，并且在健康个体中，拷贝数可以从零到几个拷贝变化（图1）。通过对许多人类基因组的分析，显然CNV存在约12%的人类基因组序列。最大的CNV可能包含几个完整的基因。当CNV的群体频率达到1%或更多时，可以将新生称为拷贝数多态性（CNP）。

重复变异：人类基因组包含大量重复序列。这些包括构成我们基因组大约45%的“散布重复序列”，并代表移动DNA元素（转座子）的残余。还有几类'串联重复'，其中重复单元以头对尾的方式并排形成相同（或非常相似）序列的重复阵列。每个阵列中的重复数可以变化，产生多个等位基因，使得这些基因座在群体内具有高度可变性，并且可以用于鉴定个体（参见下文）。串联重复包括小卫星和微卫星（图1 / 表3））。虽然从父母到孩子一般都是稳定遗传（即重复次数相同），但某些微卫星的扩张与疾病有关。

表3小卫星和微卫星的比较

	小卫星	微卫星
人类基因组中的数字	大约1500	大约500000
我们基因组中的位置	大部分接近染色体末端（端粒）	散布在所有染色体的整个长度上
单位重复长度	大约10-100 bp	2-6 bp
数组中的重复单元数	通常从大约60到> 1000	通常~6到~14
用于	DNA指纹识别	DNA分析;遗传连锁研究
也称为	可变数目串联重复序列（VNTR）	VNTR，短串联重复序列（STR），简单序列重复序列（SSR）