分享

利用NCBI在线提取启动子序列-操作详解

 minoccccccc 2023-05-17 发布于贵州
启动子是RNA 聚合酶识别、结合和开始转录的一段DNA 序列,它含有RNA 聚合酶特异性结合和转录起始所需的保守序列,多数位于结构基因转录起始点的上游,启动子本身不被转录。但有一些启动子(如tRNA启动子)位于转录起始点的下游,这些DNA序列可以被转录。

启动子的简介

启动子是RNA 聚合酶识别、结合和开始转录的一段DNA 序列,它含有RNA 聚合酶特异性结合和转录起始所需的保守序列,多数位于结构基因转录起始点的上游,启动子本身不被转录。所以一般所说的启动子是DNA序列上的结构,在mRNA、cDNA中它是不存在;但是也有一些例外,如tRNA启动子就位于转录起始点的下游,这些DNA序列是可以被转录的,只能说启动子一般位于转录起始位点的上游。
启动子,一般分为广谱表达型启动子、组织特异性启动子、肿瘤特异性启动子等多种形式。基因的启动子部分发生改变(突变),则导致基因表达的调节障碍。启动子本身并不控制基因活动,而是通过与转录因子的结合而控制基因活动的。转录因子就像一面“旗子”,指挥着酶(RNA聚合酶polymerases) 的活动。真核细胞含有3类不同的RNA聚合酶,分为RNA聚合酶Ⅰ、RNA聚合酶Ⅱ、RNA聚合酶Ⅲ。

几个基本概念

1. 转录组起始点(TSS):是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,通常为一个嘌呤(A 或G),即5’UTR的上游第一个碱基;注意转录起始点和起始密码子的区别。
2. 起始密码子和终止密码子:mRNA的开放阅读框架中,每3个相邻的核苷酸编码一种氨基酸,这种存在于mRNA开放阅读框架区的三联体形式的核苷酸序列称为密码子(codon);由A、U、C、G四种核苷酸可组成64个密码子,其中有61个密码子可编码氨基酸。AUG既编码甲硫氨酸,又作为多肽链合成的起始信号,作为起始信号的密码子称为起始密码子;而终止翻译的密码子称为终止密码子,包含3个:UAG、UAA、UGA。
3. UTR区:UTR(Untranslated Region),即非翻译区;在分子遗传学中,是指任意一个位于mRNA链编码序列两端的片段;如果其位于5′端,则称为5′非翻译区(5'-untranslated region,5'-UTR)(或"前导序列,leader"),反之若位于3′端,则称为3′非翻译区(3'-untranslated region,3'-UTR)(或"尾随序列,trailer")。尽管它们被称为"非翻译区",并且不是构成该基因的蛋白质编码区,但在5′非翻译区内的上游可读框可以被翻译成多肽。
4. 5'帽子(cap):真核生物mRNA的5'端有特殊的帽子(cap)结构,它由甲基化鸟苷酸经焦磷酸与mRNA的5'末端核苷酸相连,形成5',5'-三磷酸连接(5',5'-triphosphate linkage);这种结构有抗5'-核酸外切酶的降解作用;在蛋白质合成过程中,它有助于核糖体对mRNA的识别和结合,使翻译得以正确起始。
5. PolyA尾巴:真核生物mRNA尾部特有的150-200个腺苷酸残基,保护mRNA,免受核酸外切酶攻击,并且对转录终结、将mRNA从细胞核输出及进行翻译都十分重要;PolyA尾巴是mRNA转录后修饰加上去的,DNA基因序列中是不存在的,经mRNA反转录出的cDNA是有PolyA结构的。
6.  CDS与ORF:这是一个经常被人混淆的两个概念;CDS是Coding sequence的缩写,是指编码一段蛋白产物的序列,是与蛋白质密码子一一对应的序列,注意其与mRNA序列的差异;ORF是open reading frame的缩写,翻译成开放阅读框,是指从一个起始密码子开始到一个终止密码子结束的一段序列,但并不是所有ORF都能表达出蛋白产物,但CDS必定是一个ORF,但也可能包括多个ORF,相反,每个ORF不一定都是CDS。
图片
DNA/mRNA结构示意图

启动子序列的查找

在实际生信分析中,一般取转录组起始位置前1500-2000bp作为启动子区域序列,拥有生信技能的人提取及批量提取某些基因启动子序列简直就是小菜一碟;但是对于生信小白来说就难上青天了;不过还有一些在线数据库是可供我们查找提取启动子序列之用,比如我们之前给大家介绍的真核生物启动子的EPD数据库,使用方法点此链接查看:启动子序列提取-EPD真核生物启动子数据库!不过仍有很多小伙伴的参考基因组EPD数据库没有收录怎么办?今天我再给大家介绍下利用我们熟悉的NCBI数据库提取启动子序列的方法,希望对你有所帮助。

NCBI数据库查找启动子序列

首先我们在NCBI中检索到要提取序列的基因,如下图,本文以拟南芥WRKY家族一个成员基因:AT1G65680为例进行操作演示。图片
检索到该基因后,向下拉至基因结构展示区,如下图,点击GenBank。
图片
进入GenBank后网页会详细展示该基因的信息,如基因长度,染色体上物理位置等;向下拉还会看到如下图所示的gene、mRNA的起止位置、对应的序列等信息。需要注意的是,该gene的起始位置是1-1408,mRNA的起始位置也是从1开始的,其实很多基因mRNA的起始位置不是1,可能是别的数字如218/175等等。
图片
图片
结合该基因在染色体物理位置我们可知,起始位置1指的就是物理位置第24427266碱基,加上基因长度,正好是终止位置24428673碱基。
图片
在实际生信分析中,一般取转录起始位置前1500-2000bp作为启动子区域序列,所以我们只需将该页面右上角的Change region shown的起始数值减小1500-2000,就可以将该基因的转录起始点前启动子序列在下方序列展示区显示出来。如下图:
图片
图片
改变Change region shown的起始数值后,gene、mRNA的起始位置也随之发生改变,由1变成了2001,所以下方序列中1-2000个碱基就是我们想要提取的该基因的启动子序列,如下图:
图片
好了,今天的小技能就写到这里,感兴趣的小伙伴抓紧试一下吧!祝你新的一周新的收获!
延伸阅读:
1. 6.9分最新基因家族分析文章来了!
2. 群体研究相关知识点详解
3. 如何下载基因组及查找基因
4. CDS、cDNA、ORF等等傻傻分不清
5. qRT-PCR相对定量计算详解
6. 绘一棵超酷炫的系统发育树!
7. 100个接收基因家族分析类文献的期刊汇总!速领!
8. 生物信息软件安装解决方案-docker虚拟化技术
9. 嫁接中长距离运输的mRNA是如何鉴定的?
10. 专为生命科学工作者定制的浏览器首页
11. 谈谈转录组—建库!
12. 谈谈转录组—reads比对参考基因!
13. 生信用笔记本推荐-2022年618版

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多