一文学会TransCirc数据库使用方法
一、数据库主页及基本介绍 今天的火依旧是不按套路出牌的火呢~因为在前面讲circRNADb的时候给大家大篇幅地介绍过了circRNA编码小肽的一些常识,所以我们今天在介绍数据库的时候再穿插着介绍一些新的内容。输入网址https://www./transcirc/,进入数据库主页面。 咱们来挨个看一眼这个主页上的信息。首先是右下角五个硕大的汉字“中国科学院”,好家伙,Transcirc数据库由中国科学院上海营养与健康研究所发表在Nucleic Acids Research杂志上,Nucleic Acids Research这本神刊就不用我过多介绍了吧? 接着让我们把视线转移到页面中央--Transcirc数据库用来输入信息的检索框。检索框下方提供了几种用户可以输入的ID类型,包括Transcirc ID,Other circRNA ID,Ensemble gene,Genomic position。Transcirc ID顾名思义就是Transcirc数据库自己命名的ID,毕竟circRNA的数据库千千万,人家自己命名一个ID咱也不能说啥,就是这个ID就只能在Transcirc数据库使用了。后面几种的话,看过前几期推文的小伙伴们应该能一目了然,包括可以通过其他数据库的ID,比如circbase ID,circRNA宿主基因的名称以及circRNA在基因组上的位置信息来进行检索。值得注意的是,检索框旁边还有三个小小的单词“Search by sequence”,点击之后页面跳转到如下,用户可以通过在检索框内输入相应的核酸序列和氨基酸序列进行检索: 首先这个Evidence是个什么evidence呢?早前我在介绍circRNADb的时候说过,对于circRNA这种非编码RNA,想要预测其是否可以编码蛋白,有几个基本要求,包括是否具有ORF和IRES。如果可以在某一个circRNA上预测到ORF和IRES,可以初步认定其具有编码蛋白的潜能,此时预测到的ORF和IRES便是提供的Evidence,也是circRNADb数据库的主要内容。Transcirc数据库在此基础上进一步提供了更多的预测依据: 1. MS MS,即Mass spectrometry,蛋白质谱。隔壁36策过来的小伙伴们肯定都非常了解这个鉴定和表征蛋白质组学的重要方法。目前针对人类蛋白质组学的几项大规模MS实验研究表明,仅大概50%的质谱结果能匹配上目前已知的mRNA所编码的蛋白质,那剩下的蛋白质很有可能由非编码RNA编码形成。Transcirc数据库收集了MS数据集中circRNA可能编码的多肽,作为支持circRNA翻译的证据之一,同时提供了所有原始质谱图供用户参考,这些质谱图结果支持circRNA编码的多肽跨circRNA反向剪接位点。Transcirc数据库目前收录了168个有MS证据的circRNA。 2. RP/PP RP/PP,即Ribosome/polysome profiling,mRNA的翻译由核糖体进行,通过形成多聚核糖体来启动mRNA的翻译。因此,是否可以与核糖体/多聚核糖体结合可以作为circRNA翻译潜能的强力预测指标。Transcirc数据库通过分析核糖体/多聚核糖体所结合的RNA的高通量数据来提供circRNA翻译的证据,目前收录了4284个有RP/PP证据的circRNA。 3. SeqComp 4. IRES 5. m6A 欸,这个可就有意思了,circRNA和m6A甲基化的梦幻联动,水水老师看了都说好。m6A修饰想必大家并不陌生,是最常见的RNA修饰类型,已经在大量非编码RNA中被报道过。数据库的开发团队近期发现circRNA可以发生广泛的m6A修饰,通过募集reader分子YTHDF3并进一步与翻译起始蛋白(如elF4G2)相互作用来启动circRNA的翻译。因此,在circRNA中经过实验验证的m6A位点的存在也可以作为circRNA是否可以编码蛋白的证据之一,Transcirc数据库目前收录了39397个有m6A证据的circRNA。 6. TIS TIS,即translation initiation site,翻译起始位点,GTI-seq数据完成了几乎所有的TIS密码子分析,揭示了遍及整个人类转录组的数千个TIS密码子。Transcirc数据库使用GTI-seq的TISdb数据作为支持circRNA翻译的间接证据,目前收录了9394个有TIS证据的circRNA。 7. ORF 好了!主页信息终于给说完了,小伙伴们只有明确了这些东西都是个啥才能看得懂Transcirc数据库接下来的检索结果。同时从这里可以看出来Transcirc数据库相较于circRNADb数据库的优越性,不仅提供了更多种类的证据支持,让circRNA编码蛋白预测的更靠谱,同时!还能支持多种形式的ID输入,这可让我太爽了~ 二、数据库实操讲解 接下来我们以ADARB2分子为例来讲解一下数据库的实操。检索框中输入ADARB2,点击“Search”。 页面刷新后,跳转到如下页面。咱们继续从上往下看,“Evidences”这一行列举了刚刚给大家介绍的几种Transcirc数据库所提供的证据支持,大家可以通过勾选来进行筛选使用哪一种证据支持。下方“Sort by score”是选择通过对score进行升序还是降序排列,毕竟输入ADARB2可以出来很多circRNA。至于这个score,前面不是说了Transcirc数据库可以提供7种证据支持嘛,为了对他们进行一个量化和结合,对每一种证据都进行0-1分的打分,分值越大,证据越可靠,将所有证据的分数全部加在一起即为最后的score。因此这里演示“Evidence score descending”,通过降序排列分数,排在第一个的即为得分最高的circRNA,编码蛋白的可能性最高。旁边的雷达图和标蓝的项目即为支持该circRNA编码的证据。 咱们接着来从上往下捋捋。 “CircRNA information”版块介绍了该circRNA的基本信息,包括物种来源,参考基因组版本,染色体上的位置信息,宿主基因的名称及类型,正/反义链,外显子及ORF信息以及参考的circRNA数据库。右侧的雷达图展示了各种证据的类型及评分供用户参考。 “Structure”版块直观地显示了circRNA上的IRES, m6A, TIS等位点信息,通过点击相应的图标可以在下方的“circRNA sequence”标明具体的位点。 “Exons”,“m6A sites”,“IRES sequence”分别展示了circRNA的外显子信息,m6A位点以及IRES序列。 页面下拉到最后,展示了circRNA的ORF结构,包括起始和终止位置,以及长度。诶,值得注意的是,这里还有一个概念叫“Translation cycles”,这是circRNA近来发现的有意思的一个现象,不论是逆转录还是翻译,circRNA都存在多次循环的可能性,绕了一圈又一圈回到了另外一个地方,极大地延长了编码蛋白的氨基酸序列长度。 回到主页接着点击“Download”等可以下载数据库收集的信息,和我们之前介绍的数据库大同小异,我们就不一一介绍啦~ 好了,Transcirc数据库我们就说到这里啦~Transcirc数据库这个月8号才正式见刊,足够新颖,所以第一时间拿出来给大家尝尝鲜。相较于传统的circRNADb数据库,它极大地扩充了预测circRNA编码蛋白的证据信息,更加可靠,同时整合了m6A等内容,对于研究circRNA的小伙伴们有极大的指导意义,荣获多位先锋班大佬们的青睐。大家要好好利用哦~ 撰文 丨火 火 排版 丨四金兄 值班 | 先锋宇 主编丨小雪球 欢迎大家关注解螺旋生信频道-挑圈联靠公号~ |
|