台有小伙伴问在课题中研究某个基因的时候,被题目里的几个东西搞晕了,脑子里一片江湖。 嗯,这一开始确实不好区分,但这很基本,也很重要。 先来认识几个概念: 3'UTR: 3‘端非翻译区,也就是mRNA两端的非编码片段 5'UTR: 5‘端非翻译区,也就是mRNA两端的非编码片段 UTR代表了RNA EXON的非蛋白质编码部分 ORF:开放读取框,指任意一段序列,只要起于ATG止于终止子,都可以叫做ORF。ORF是一种预测,而不是一种已知的翻译区 CDS: Coding DNA Sequence,是指mRNA序列中编码蛋白质的那部分序列。属于ORF(open reading frame),既然编码蛋白,那肯定以ATG开始--终止密码子结束。 CDS,start_codon(启动子),stop_codon(终止子),UTR等概念都是针对可以编码蛋白质的转录本(mRNA)而言的。当然也存在不编码蛋白的转录本(mRNA),那么他只有exon了,没有CDS,start_codon,stop_codon。另外exon与intron是互斥的,exon包含UTR和CDS。 基于这些信息我们可以得到以下结论 (可以自行统计基因注释文件:gencode.v18.annotation.gtf):
2). 对于任意一个编码蛋白转录本而言,可以没有5'UTR,但是肯定有3’UTR,3'UTR最短也就和stop_codon完全相同,即3个碱基。 以ENST00000583352.1 为例 (GENCODE hg19),其中涉及以下两行信息(基因组位置后部分信息已省去) 3). 对于编码蛋白转录本而言,第一个外显子可以部分或者整体全是在5’UTR内部。此外,前面多个外显子也可以都在5’UTR中。以ENST00000342066.3为例(GENCODE hg19),其中涉及以下信息(基因组位置后部分信息已省去) chr1 HAVANA exon 861302 861393 chr1 HAVANA CDS 861322 861393 chr1 HAVANA UTR 861118 861180 chr1 HAVANA UTR 861302 861321 chr1 HAVANA UTR 879531 879955 4). 部分编码蛋白转录本最后一个外显子可以部分或者整体全是在3’UTR内部。此外,后面多个外显子也可以都在3’UTR中。以ENST00000435070.3为例(GENCODE hg19),其中涉及以下信息(基因组位置后部分信息已省去) chr12 HAVANA CDS 69656153 69656336 chr12 HAVANA stop_codon 69656337 69656339 chr12 HAVANA exon 69663292 69668138 chr12 HAVANA UTR 69633317 69633426 chr12 HAVANA UTR 69656337 69656342 chr12 HAVANA UTR 69663292 69668138
致敬Scihub|Freescience、生信人要一起做些很Cool的事儿 生信人 生信人团队组建于2014年,由老祝,鑫仔,helen等组建,他们都来自同一个学校:哈尔滨医科大学,更来自同一个寝室,他们是国内最早一批专攻生物信息学专业的学生,他们希望能最大限度降低生信学习门槛,开发一系列零编程的可视化软件,助力医学科研。 你可能还想看看↓↓ ☞ 戳 科学自由共享 |
|
来自: zhongguorui > 《分子克隆》