分享

NCBI数据库一个基因有多个转录本时选哪个?

 imtravelinghah 2023-07-04 发布于广西

老熊说

Lao Xiong Talk

我们在构建过表达质粒时,或者单纯想去PCR一段基因时,我们会去NCBI上找这个基因的序列,可是往往会出现这种情况:

我们以人的谷氨酸脱氢酶GLUD1为例

Image
Image

在NCBI里会显示有好多isoform,这对应的是在蛋白水平上的同源异构体。同样,在RNA水平上有很多的transcript variant

Image

有时不同的variant可能对应一个isoform。一个基因如果有多个转录本,那么我做哪个呢?

首先我们要知道,一个基因的多个转录本产生通常是其中的一种原因或者几种原因共同发生导致,主要有以下四种:

(1)alternative splicing:

选择性剪接便是利用这样的特性,将同一基因中的外显子以不同的组合方式来表现,制造出不同的蛋白质。

(2)alternative promoter usage:

同一个基因可能由不同的启动子,不同的启动子导致产生不同的蛋白质

(3)alternative initiation:

同一条mRNA中使用不同的翻译起始密码子,通常情况下产生出仅仅在N端有差别的蛋白质序列。

(4)ribosomal frameshifting:

一种翻译重编码机制,其导致核糖体改变其对遗传密码的读取,产生不是由mRNA直接编码的蛋白质,或者两种甚至更多种不同的蛋白质

如果你是一个怕麻烦的人,最简单粗暴的办法就是用不同转录本的NM号和关键词到NCBI上去查,哪个NM号文章多,就用哪个。

Image
Image

当然这种办法其实不太科学,有点过于偷懒

Image

或者直接用complete cds区域,但是有一点要注意,如果NCBI提供的complete cds的碱基数不是所有transcript variant里最长的,你就要考虑变短后会不会影响蛋白活性,特别是对于蛋白酶来说。

老熊在这里介绍一下更细致的查询办法:在确定研究的转录本时我们可以参考这三个数据库

1、NCBI

NCBI中有两个地方可以参考,一个是NCBI Reference Sequences (RefSeq)区域;一个是每个转录本的Nucleotide界面

Image

有些基因NCBI明确会告知哪个主要转录本,比如 HIF1A这个基因,isoform1显示是“predominant transcript”,但实际上我们很少能在这个地方看到明确的提示。这个时候我们可以去Nucleotide界面:

Image

这就引出了第二个数据库:MANE

2、 MANE

MANE是Matched Annotation from the NCBI and EMBL-EBI的缩写,这个数据库收录了人类编码基因的一个“representative”转录本。

Image

3、UniProt

对于人类基因,当检索某一个具体的基因时,在结果页面的Sequence区域,通常会选择某一个转录本编码的蛋白质(isoform)当做是'canonical'序列。而这个'canonical'序列可以说是100%会对应到NCBI RefSeq 中某一个转录本。UniProt对于'canonical'序列有严格的标准,必须满足如下四种标准里边的至少一个标准:

(1)It is the most prevalent.

(2)It is the most similar to orthologous sequences found in other species.

(3)By virtue of its length or amino acid composition, it allows the clearest description of domains, isoforms, polymorphisms, post-translational modifications, etc.

(4)In the absence of any information, we choose the longest sequence.

Image

从UniProt四个标准看到,最长转录本作为最后才考虑的一个标准,也就是说在选择基因转录本的时候,并不是最长转录本就是该基因的prevalent / predominant / representative / canonical转录本。我们在选择的时候,要多角度权衡NCBI,MANE,UniProt三个数据库中数据,绝大多数情况下,都是选择最长的转录本作为representative 转录本,但是有例外情况。

这样的话就回到了开始的问题,如果你最后选择的转录本恰好不是最长的那个,你就需要考虑截短的转录本会不会影响蛋白活性(比如酶的活性),怎么看呢?

我们把最终选择的转录本在NCBI里检索,就可以找到发现这个基因时的文献,文章里相应也会有蛋白活性方面的实验数据,要具体落实在某一张结果图上。

Image
Image

最终确定了蛋白真的有活性后,我们就可以放心大胆的选择这个转录本了,虽然麻烦了一些,这样可以保证你每一步都是稳的。

好了,先讲到这里,希望大家点赞、转发、关注,让老熊有动力继续分享!我是老熊,一个立志用通俗易懂的语言带你玩转科研的忍者~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多