分享

数了20年,科学家为何还在争论人到底有多少个基因?

 人老颠东 2018-06-27

原文以New human gene tally reignites debate为标题

发布在2018年6月19日的《自然》新闻上

原文作者:Cassandra Willyard

研究人员对人类基因组进行测序已有十五年左右的时间,但是人类究竟有多少基因,仍未有统一答案。


一群微醺的遗传学家、美国纽约州冷泉港的一间酒吧、纯粹的猜测,这些元素构成了估算人类基因组基因数目的最初几次尝试之一。


在人类基因组项目完成十多年后,鉴定基因仍然是一个挑战。

时间回到2000年,当时人类基因组测序仍处于绘制草图的阶段;遗传学家则在进行一场“豪赌”:人类究竟有多少个基因。有的认为有几万,有的认为有几十万。将近二十年过去了,手握实际数据的科学家们依然无法就这一数字达成一致意见——他们认为这个知识缺口会阻碍人们发现疾病相关的基因突变。


5月29日,人们为填补这个缺口而做的最近一次尝试,其结果发布在了预印本服务器BioRxiv上。这项研究使用了来自数以百计的人体组织样本的数据,发现了约5000个之前未曾发现的基因,其中近1200个带有制造蛋白质的指令。得出的蛋白质编码基因总数超过21000个,较之前的估算——20000个左右——有了较大提升


然而很多遗传学家并不相信所有这些新基因都能经受住学界进一步的推敲。他们的批评凸显了鉴定新基因,甚至定义基因是什么有多么地困难。


美国约翰·霍普金斯大学的计算生物学家Steven Salzberg说:“人们在这一领域已经努力了20年,但却依然没有得到答案。”正是他的团队得出了最新的基因计数。


难下定论

2000年,基因组学学界对能发现多少个人类基因的问题争论不断,在这样的背景下,现任欧洲生物信息学研究所(EBI)联席主任的Ewan Birney发起了一项名为GeneSweep的比赛。他在一次遗传学年会期间在一间酒吧里下了第一笔赌注,比赛最终吸引了超过1000名参与者,总奖池达3000美元。针对基因数目的下注范围低至26000个以下,高至312000个以上,平均在40000个左右。时至今日,人们的预估范围已经缩小了——大多数估计都在19000至22000个之间但分歧依然存在(详见“基因计数”)

来源:M. Pertea & S. L. Salzberg

考虑到分析数据、分析工具和剔除假阳性的标准的不同,基因计数可能存在差异。在最近的这次计数中,研究人员选用了一个规模更大的数据集、与以往不同的计算方法以及一个较宽泛的基因定义。


Salzberg团队使用的是来自基因型-组织表达(GTEx)项目的数据。GTEx对几百具尸体的30多种不同组织的RNA进行测序。RNA是DNA和蛋白质中间的媒介。研究者想鉴定出编码蛋白质的基因和那些非编码但仍然在细胞里扮演重要角色的基因,因此他们把GTEx的9000亿微小RNA片段组装起来与人类基因组进行比对。


然而仅凭一段DNA可以被表达为RNA这一点,并不能说明它就一定是一个基因。因此,团队尝试采用了一系列手段滤除数据噪音。例如,他们把自己得到的结果与其它物种的基因组进行比较,这背后的逻辑是亲缘关系较远的生物间共有的序列很可能是因为有某种用处而被演化所保留,所以这些序列有可能是基因。


最后,研究团队得到的是21306个蛋白质编码基因和21856个非编码基因——远远超过目前使用最广泛的两个人类基因数据库。EBI维护的GENCODE基因数据库包括19901个蛋白编码基因和15779个非编码基因,美国国家生物信息技术中心(NCBI)运行的数据库RefSeq则包括20203个蛋白编码基因和17871个非编码基因。


NCBI的基因组研究人员、RefSeq前负责人Kim Pruitt认为数目上的差异在某种程度上可能是由Salzberg团队所分析的数据量导致的。另外还有一个重大的区别:GENCODE和RefSeq都依靠手动管理——有专人审核每一个基因相关的证据并做出计入与否的最终决定,而Salzberg团队则完全由计算机程序来筛选数据。


“如果人们认可我们的基因清单,那么也许几年后我们将成为人类基因研究领域的权威。”Salzberg如是说。


模棱两可的计数

但是许多科学家都说他们需要更多的证据才能相信清单是准确的。EBI的计算生物学家Adam Frankish负责协调GENCODE的手动注释工作,他说他和他的小组扫描了Salzberg团队鉴定出的约100个蛋白质编码基因。根据他们的评估,其中似乎只有一个是货真价实的编码基因。


Pruitt的团队检查了十几个Salzberg小组得到的新蛋白编码基因,但发现没有哪一个能满足RefSeq的标准。其中一些与似乎属于逆转录病毒基因组的部分区域重叠(这些病毒过去侵入了人类祖先的基因组),而另一些则属于其它重复片段——它们很少被翻译成蛋白质。


但Salzberg认为有些重复序列可以被认为是基因。ERV3-1就是其中一例:它被收录在RefSeq中并且编码一种在结直肠癌中过表达的蛋白质。Salzberg也承认他的团队所发现的新基因还有待他们自己和其他研究组的进一步验证


基因并没有一个明确且不变的定义,这使得计数工作变得更为复杂。生物学家过去认为基因就是编码蛋白质的序列,但后来了解到一些非编码的RNA分子在细胞里也起重要作用。裁定哪些序列是重要的、应该被视为基因,是存在争议的,这或许可以解释Salzberg与其他人的计数之间存在的部分差异。


瑞士日内瓦大学的遗传学家、GTEx项目的联席主席Emmanouil Dermitzakis认为,Salzberg团队鉴定出的基因至少有一部分仍可能被证明有效。考虑到GTEx数据集巨大的规模,在看到该研究团队得出的蛋白质编码基因计数较之前增加5%时,他并没有感到太惊讶。


准确掌握人类基因的全部数量对于揭示基因与疾病之间的关联具有重要意义。Salzberg说没有被统计进来的基因即便是带有致病的突变,也常会被人们忽略,但Frankish则认为贸然添加新基因亦有其风险。被错误计入的基因可能会误导遗传学家,导致真正的问题被无视。


数据库不一样,基因数目就不一样,Pruitt认为这对研究人员来说是个棘手的问题。“人们只需要一个答案,”她补充道,“可生物学是很复杂的。”

Nature|doi:10.1038/d41586-018-05462-w

版权声明:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多