分享

十分钟了解基因那些事儿~~

 elabman 2018-05-15

这部分不在十分钟内哦!

最近很多同事不明白功能基因数据库里面的一些问题。比如基因名到底是不是唯一?基因名、gene symbol和基因别名之间的差别?基因ID是什么?为什么很多序列的名字千奇百怪?

其实这也难怪,基因这类东西的命名体系本就是几十年来逐渐积累起来的。随着认知的迭代,很多对基因的描述方式也在不停的变化,旧的方式被逐渐取代,新的方式占据主导。但有些约定俗成的东西还在某些领域根深蒂固,就形成了从“闲得蛋疼要去搞清楚基因的复杂体系”的角度看起来并不规范的一些名词,但这些名词就和方言一样,存在的那么合理,但又带来了很多的不便。

本文就是李小白同学研究基因数据库得来的一些经验分享,也许几年后也不适用了。但此时此刻,2018年5月14日星期一,我想以下认知绝大部分是准确的。

 

基因-繁复的概念
和混乱的数据收集过程

虽然这个世界很混乱,但好在有几个大的数据中心还是比较负责的,比如NCBI,ENSEMBL, EMBL,EBI等。他们都致力于将混乱的基因世界规范化,于是制定了比较统一的名词概念,并要求全世界的科学家都用这一套标准来上传他们研究的数据。用通俗的话来讲,规定了一套普通话,让全世界的科学家都去学习。于是就有了下面的基本规则。

基因命名的基本规则

1、 基因:

从数据角度讲,基因是一个抽象的概念,它并没有对应一段唯一的序列。而是有多种表现方式(基因组上的片段、mRNA、 蛋白),但这些表现方式都来源于基因组上同一个区域。

2、 基因ID:

这就是基因的身份证啊,必须要与基因一一对应。这是基因唯一的伴侣,其他的都可能伪造,但这个不会。

3、 基因名:

这就是一个非常不靠谱的概念了。大多数时候,命名一个基因都是通过描述它的基本功能。但功能的认知在变,描述的方式在变,还有逗比会犯下一些错误被沿用,于是名字就有了很多种。NCBI们绞尽脑汁,想了个招来解决:

    a) 基因全称(Definition):在英文里其实是基因定义的意思,也就是用最严谨最精炼的语言描述的基因的属性和功能。

    b) Gene symbol:这个symbol就是从众多名字里脱颖而出的,具备简单性和独特性的那个基因名字。原则上讲,这个不能完全等同于基因名,只是多个基因名中的最具备识别力和使用频率最高的一个。通常就是基因定义的缩写。重要的事情说三遍,通常!通常!通常!

    c) 基因别名(Synonymous):这个词的英文本义是同义词。也就是说,NCBI们偷了个懒,其他名字统统叫这个了。于是这里成了数据库里面最臃肿的字段。


命名的基本规则看起来好像解决了。我们举个简单的例子来看一下:

Gene symbol:曹操

Synonymous:孟德、曹丞相、阿满、曹贼……。

嗯,如果我们正在看三国剧,那么说这几个名字都可以,但换了环境就未必好使,所以我们实际上更多时候说的基因名,就是gene symbol。

但即便用Symbol,仍然可能出现不靠谱的状况:


谁让他也叫曹操呢?没办法!

所以要想弄清楚还是要靠基因ID。



用功能命名基因的好处

因为这一点太重要,单开了一个小标题。用功能命名,最重要的好处就是不同物种间同源基因可以方便识别。我们可以简单的通过名字,就判定出来源于人、马、鼠、鱼的基因是不是ortholog关系。如下图,基因ID675这个基因的ortholog全部名字都是BRCA2:

系统的定义如此明确,以后的事情应该很简单了吧?然鹅并不是。

NCBI们都很天真,他们设计了一套完美无瑕的系统,却忽略了使用系统的人水平参差不齐。这里有两个巨大的问题:

    1、不同物种研究水平不同,那么在新物种测序时,往往不知道基因功能或者注释不准确,但基因组逐渐完善后,这些信息已经固化不易更改。

    2、有的科学家以为自己说的是普通话,其实只是浦东话,有很多地方做的马马虎虎,胡乱填一通就传上去了;有的科学家操着河南话就来了,我偏不按你说的来。NCBI们招架不住,也都统统放行了。

于是乎,各大数据库也不同程度的成了大染缸…

【小贴士】

百迈客云功能基因数据库有查ortholog功能,多试试,你总能查到并不规范的gene symbol。


那些年,

         我们一起使用过的不规范“gene symbl”

不规范的命名实在是太多,太惨烈,以至于我不能一一列举。我思来想去,决定先用一个我们耳熟能详的基因来说明数据上传过程中的不规范:BRCA2!这个让全球女性尖叫,不对不对,是颤抖的基因。

基因全称其实就是Definition,但这里出现了简写。而真正的Definition【breast cancer type 2 susceptibility protein isoform X1】被华丽丽的填进了基因对应的refseq里面。这是典型的数据信息错位。好在大家都知道BRCA代表了什么。

我们再看一个例子,典型的新物种,新数据,不知道该怎么命名,于是就成了这样子:

很容易看出来,这个gene symbol的含义就是“四膜虫的编号239120”的基因。是不是太敷衍了?那个……9527,你来一下!

还有这种让人哭笑不得的基因——NEWENTRY:

所以,在类似人类基因组这样基因准确度非常高,已经进入到功能基因组时代的物种中,多数基因已经很准确,且研究非常深入,所以多数人认知和使用基因是依靠基因名的——啊呸,应该是gene symbol!gene symbol!gene symbol!我们已经不是不懂基因的人了好伐?


但在刚刚开荒或者全面基因组注释还不够完善的物种中,大多数人都不用gene symbol,而是用基因的编号。但基因的编号是没有实体的,所以大家更多的使用序列编号来说明问题。嗯,这样问题就完美解决了有木有?


图样图森破!各大数据库的次级命名规则会搞得你欲仙欲死。




基因命名的次级规则

对于不熟悉的基因组,只有序列是真的。因此,序列的命名就成了这些科学家互相隔空喊话的唯一凭据。没有了不靠谱的基因名,是不是会简单?然鹅,这里仍然有很多坑。

1、测序数据的来源不同,但对应的基因是一样的,就出现了多对一的情况。比如:从全基因组测序得到的染色体上的一段区域、从转录组测序中得到的转录本、以及翻译出的蛋白,其实是来自同一个基因,却是三种数据表达方式。

2、一个基因可以有多种剪切形式,所以不同剪切的转录本和蛋白对应同一个基因。又是一对多。

3、如果光是上面两个问题,还好办,毕竟只是一对多。但是,最后一个问题一下子提升了问题的复杂度,让这件事变成了多对多,这个问题就是——各个数据中心各自为战:

 a) 几个大的数据中心对相同的基因有不同的命名方式。包括基因ID和序列ID。

 b) 有些新测序物种或者组装新版本在上传NCBI同时发布自己使用的版本,造成在大数据中心之外又多了一种无规律的命名规则。

4、这就完了吗?并没有。紧接着还有一帮做功能和进化的人捣乱,把基因对应的功能分类和同源信息也对应了进来,增加了一堆编号。严格的说,这个操作已经不是同一个基因的信息,但因为这是基因注释中最重要的环节,使用率太高,所以这些信息往往会如影随形的跟着基因信息,混淆我们的视听:

 a) Uniprot就天天说:“你们这些基因里面,好多都恨不得一模一样,来我给你们归归类,保证蛋白之间差异不超过10%的都归进一个蛋白里面。这样运算起来省事。”——于是有个多个基因对一个Uniprot的编号。

 b) Pfam也说:“对呀对呀,你看我帮你按照蛋白功能分类,注释的清清楚楚,你得把基因名和我对上。”——于是又多了一个。

 c) CCDS也蹦出来了:“你看啊,一个蛋白里面不是所有氨基酸都是有用的,关键的氨基酸都有固定的排列,我们给你找出固定排列和对应功能,再把这些氨基酸排列对应的基因都聚成一堆,这才是按功能的分类”——于是又多了功能域的编号。

 d) OMA和OrthoDB说:“平行宇宙你们这帮low逼一定不清楚。来我这里,我告诉你们另一个世界中的你是谁……”——于是有了寻找近缘物种之间同源基因的ortholog编号。

 e) NOG说:“别忘了你们的祖宗……”——于是……

5、BIND、STRING(基因互作)和Kegg(代谢通路)也想掺和,但被挡在了门外:“好歹我们同源基因是亲戚,你们提供的只是我的业务来往对象,不是我们家人,别来捣乱……”

【小贴士】

用百迈客云功能基因数据库,了解各个数据库之间的关系


妈妈咪呀,这么多编号混在一起,当我们在功能基因数据库中输入“9527”时(真的有这个基因),神奇的事情就发生了

上面的图里面,费了我李小白九牛二虎之力,把各种命名的对应关系分了五类:第一类是基因名层面的同名现象,第二类是基因的ID,第三类和第四类分别是基因对应的转录本和蛋白序列,第五类是基因对应的功能分类等相关信息。

港真,仔细研究一下,发现不同的数据中心的行事风格还是有其规律的:

a) NCBI:简单实用派,能用一个字就不用两个字。典型的老美作风。

b) EN-不把名字弄得很长就显得我不专业-SEMBL:英国人的刻板和可爱,恨不得把所有重要信息都在名字里告诉你,比如用“ENSG”表示基因组上的参考序列,“ENST”和“ENSP”分别表示转录本和蛋白。——所以不要看到“EN”就觉得找对了,擦亮眼睛!!

但是,这些麻痹都是同一个基因好伐?!好坑爹…

还没说完,很多物种专业网站还秉承着自己的命名规则,比如宗师级别的拟南芥网站,就引导着作物学的专家们长期使用“拉丁简写+染色体号+基因排列编号”的形式命名。以至于高傲的ENSEMBL都要向他们低头:

然鹅如果都是这个规律也便罢了。但ENSEMBL也是很势力的,有的低头,有的偏不。于是乎,就有了更多的可能性,于是做植物基因组的,经常会出现使用的基因名和NCBI或者ENSEMBL不一致的情况。是不是真的很坑爹?

但如果我告诉你还有很多新基因组的版本更迭还会造成很大的基因序列变化呢?两个基因组的基因尼玛根本就对不上呀对不上了!ncbi们摊摊手,对应个p,你们都用新的好了。每次遇到这种问题,我都有从八楼纵身一跃的想法……

总而言之,当我们看到注释结果中一个基因ID 或者序列ID 的命名和自己的认知不一样时,不要着急,不要紧张,先看看参考基因组和功能基因数据用的哪个版本。如果发现是版本用错了,可以到卫生间扇自己一个嘴巴,然后重新去投放任务。当然,我们推荐把检查基因组版本信息这一步走在前面,免得占卫生间的人太多影响其他人如厕。


晕了的人看这


说了这么多,无非是这样的两件事:

第一,基因名这东西,历史原因导致会有一大堆不规范的名字,但这些名字里面只有symbol是相对规范的,多数情况下物种+symbol可以唯一对应一个基因。

第二,基因ID和序列ID都能严格的唯一识别基因。但不同数据系统之间的规则差异导致我们总是不认得它。版本的大更迭也会导致一个物种的序列ID重新洗牌。所以要养成好习惯:把确定数据版本作为科研分析工作开始的第一步。


最后,赠品~图一张。


【看不懂?】 去访问一下百迈客云功能基因数据库吧!


有关基因的问题上墙...

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多