分享

等位基因频率

 stingray928 2020-02-05
【以下我说的不一定对,欢迎探讨。】


 
如何证明我是我

如果要证明一个样本就是这个样本,比如说,它在整个操作过程中都没有跟其他样本互换过,在以前这是一个比较主观的任务;现在,随着生物技术的发展进步,它变成了一个可以进行客观评定的任务。因为我们有了基因检验的方法,既便捷又灵敏,能够得出几乎不容置疑的检验结论。

扫条形码识别斑马


基本思路是这样的:人基因组(genome)总共含有大约30亿个碱基(base)对,其中有2-2.5万个基因(gene)以及基因之间的广大区域;这30来亿碱基被打包成长长短短23对(=46条)染色体(chromosome),存放在细胞核里。是每个体细胞一套(红细胞没有,除外),每个生殖细胞(=精子、卵细胞)半套,不是整个人共一套。尽管一个人的碱基序列与另一个人的基本是一样的,但是多多少少还是有一点不同之处。只要找到这些与众不同的、独特的(=个体特异的)信息,我们就能通过它们把一个样本与另一个样本区分开来(=个体识别)。这类个体特异的信息可能位于基因内部,也可能位于基因外(即基因之间的区域,基因在染色体上呈线性分布,像烤串),从碱基序列的角度叫位点(locus,复数loci);从检验的角度叫标志(marker),也叫遗传标志。假设我们选定10个位点作为检验标志,如果3份标本的检验结果符合孟德尔遗传定律,那么就可以断定这3份样本之间存在亲缘关系;如果2份标本的检验结果完全一样(实际检验当中可以适度放宽,绝大部分一样也可以接受),那么就可以认定它们来自同一个样本。

当然,最后这句话有点满,表达不够严谨。地球人有好几十亿,人的基因组又高度相似,所以难免会碰到两个人的10个位点信息一样。我们改一下:这两份检材大概率来自同一个样本,就严谨了。如果进一步提供概率数据,比如这两份检材99.99999%来自同一个样本,就更理想了。
这个基因检验,叫做个体鉴定。它可以应用于罪犯嫌疑人认定、亲缘关系认定等,用途很大。
 
低频率才能高分辨

要计算鉴定的概率,我们需要预先知道这10个位点在人群中出现的比例,即人群等位基因频率。收集、测定一套遗传标志的人群等位基因频率是一个大工作,我们可以根据自身条件和研究目的,定义不同大小的人群。针对全体地球人当然是最理想的;如果条件不具备,就对人群进行细分,只研究比如说高加索人、非洲人、中国人和日本人,也很了不起;还不行的话,再进行细分,研究湖北人、浙江人、东北人和云南人,也有很大的实用价值。

完全可以预见,即使针对同一个人群,不同位点的等位基因频率也是不同的,有的高、有的低。选择等位基因频率低的位点作为个体检验的遗传标志,能够增加检测试剂盒(assay)的分辨力。

以选择10个位点对中国人进行个体鉴定为例,这10个位点构成一个试剂盒,其总和分辨率等于20个位点的等位基因频率的乘积。这个乘积应当越小越好。假设是10-10,其倒数是1010,也就是100亿,这表明你检测100亿个中国人才有可能随机碰到两个一模一样的。2020年中国人总共只有14亿,这就说明,该试剂盒在全体中国人中基本不会出现两个不同人但是检验结果一模一样的情况。

为什么这个试剂盒的分辨力如此强大呢?就是因为它所选用的位点在中国人群的等位基因频率都很低,一个人与另一个人不重样,具备看到就是识别的效果。
 
打个比方

低频率实现高分辨的效果,可以举例说明,方便理解。人有各种特征(=性状),其中有的很常见,比如2只眼睛。除了二郎神有3只眼睛、哪吒有时候有6只眼睛以外,基本上所有人都长2只眼睛,所以两只眼睛的频率在人群中接近100%,是高频率。给你一排人,如果只考察眼睛,这一排人都是2个眼睛,相互之间没有差别,不能区分一个与另一个。因为人长2个眼睛的频率非常高。当然,面临这种窘境,你可以通过增加一个性状来试图解决问题,比如鼻子。你去数眼睛和鼻子的数量,结果不幸地发现,所有这些人都长了2个眼睛1个鼻子,还是无法区分。这是因为,1个鼻子也是高频性状,其人群频率接近100%。那就再增加一个性状,眼睛、鼻子和指头。假设你运气足够好,在这一排人中碰巧有一个人是六指,其他人都是五指。尽管五指的人仍然分不清,但是六指的这个人你一眼就认出来了,即使不看眼睛和鼻子,也不与其他人相混淆。这是因为,六指的人群频率相当低。

双眼皮和单眼皮是一对常见的性状


要认人,找特征。一个特征越是与众不同(=罕见),其分辨力越高。如果量化表达,那就是等位基因频率低(按照一个基因一个性状理论,性状由等位基因决定)。
 
普遍存在的担心

有人担心:选低频率的遗传标志位点作为检验指标,比如六指,好是好,可是即使在很大的人群中也没几个六指,检验完成了却测不出数据怎么办?这不是假阴性吗?为了减少假阴性,我们必须选择等位基因频率高的位点作标志。

这是一个两难,悖论。
解决悖论,通常需要跳出原有的框架,打开眼界才有可能。如果局限于二态性遗传标志,解释起来非常困难。

为了简单明了地回答这个问题,我们在众多遗传标志中选择一种比较特别的标志:在人群中具有不止2种、而是多种等位基因的遗传标志,最理想的比如STR(微卫星重复序列microsatellite,也叫短串联重复序列short tandem repeat)。我们平常谈论的遗传标志大部分只有两种等位基因,比如双眼皮与单眼皮,有耳垂与无耳垂,以及大部分SNP位点,等等。STR与此不同。一般把STR定义为由长度为2-6个碱基的碱基单元重复不同次数串联组成,一个STR位点可以在人群中存在数种到几十种重复次数,每一种重复次数都是一种等位基因,属于多等位基因。在不同的人群中,比如高加索人、非洲人、中国人和日本人,不同STR位点的等位基因种类和频率都不一样,我们可以针对每一种人群分别选择一套高分辨率的STR位点组合,比如10个位点,来鉴定该人群中的每个个体。由于预先已经实验证明这10个位点在目标人群中肯定存在,所以每次检验都会获得数据,数据可以不同,但是不会检测不到。如果位点选择恰当,可行度可以达到比如说99.999999999%的惊人程度。之所以鉴定的效率高,可信度高,就是因为所选的10个位点在目标人群中出现的频率低。如果测定值与数据库里记载的数字一样,则所检测的样本与数据库里记载的样本就是同一个样本。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多