从2011年1月我就在实验室的QQ群里发群邮件说IPI关门,时至今日,已经关门3年了,主页上一直停留在关门大吉的那一刻。 我不断在邮件里, lab meeting上强调要换成uniprot来搜库,然而时至今日,依然还是有很多的人在使用IPI,想想真可怕,实验室真是100年不更新一下数据啊。 比如上面这个蛋白质序列的FASTA文件,注释行有很多信息,比如: >gi|16128001|ref|NP_414548.1| putative transporter [Escherichia coli str. K-12 substr. MG1655] 显然搜库时可以使用NP_414548.1做为ID,这个问题我说过N多遍,但他们一定会用他们惯用的gi|16128001来做ID。
这玩意不是蛋白的ID,是NCBI拿来做历史记录的,所以它老变,而且各种蛋白注释信息都不会基于GI号来。这就是问题了,给我一堆GI号,我要做分析的话,就得转成别的ID,但这货老变身。比如以蛋白NP_414680.4为例,它已经有几次revision: >gi|90111089|ref|NP_414680.4| putative fimbrial-like adhesin protein [Escherichia coli str. K-12 substr. MG1655]MIKTTPHKIVILMGILLSPSVFATDINVEFTATVKATTCNITLTGNNVTNDGNNNYTLRIPKMGLDKIANKTTESQADFKLVASGCSSGISWIDTTLTGNASSSSPKLIIPQSGDSSSTTSNIGMGFKKRTTDDATFLKPNSAEKIRWSTDEMQPDKGLEMTVALRETDAGQGVPGNFRALATFNFIYQ 在这几次revision中,NP是不变的,但gi号做为NCBI数据库内部使用的primary ID,每一次revision都要有赋予unique的gi号,可以从http://www.ncbi.nlm./protein/NP_414680.4?report=girevhist看到revision的历史记录,4个version对应4个gi号。 上面的序列数据来自ftp://ftp.ncbi.nlm./genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_uid57779/NC_000913.faa,这个实验室100年不更新数据,也不知道搜的是什么时间的库,但我从NCBI上获得的数据,只有这一个最新版本,好多GI号都变了,对不上,就没办法转成诸如NP_414680.4这样的参考序列号。 当然,对于这些老黄历的GI号,还是可以转的,通过NCBI的eutils,在线去抓数据回来解析,只不过把非常简单的事情复杂化了而已。 我一直强调搜库时匹配参考序列号,像NP_414680是永远都不会变的,它就是某个蛋白的终身编号,版本更新只会改变后面的.4。但某组永远都只会给出GI号,我在多次被虐身虐心之后,对这货竟然也熟悉了起来,sigh…
|
|