分享

LncRNA 数据库专题-LncRNome

 微笑如酒 2018-01-31

长链非编码RNA(lncRNAs)占了这些新注释的非编码转录本的大部分,他们参与多个功能不同的生物过程。超过18000转变本目前已作为lncRNA标注,覆盖先前注释非编码转录本,包括大型基因间非编码RNA,反义RNA和加工的假基因。但在提供稳定的注释,交叉引用和生物相关的信息资源方面有显着的差距。由印度三哥CSIR基因组和整合生物学研究所研究人员开发的lncRNome,旨在填补这一空白,他们通过把生物显著性的各种各样的信息注释整合到一个全面的知识库。

基本介绍

 
LncRNome 该数据库是针对人类构建的,收入了18,000多条lncRNA转录本,主要提供lncRNA的分类、染色体定位、二级结构、与其他数据库相关联信息、生物功能描述、疾病关联的数据,同时提供lncRNA与protein互作功能预测、SNP位点等信息。其链接:URL: http://genome.igib./lncRNome.

数据库的设计与架构


lncRNome数据库的设计始终牢记始终以服务以实验为主和生物信息为基础的生物学家为宗旨,以便根据用户的需求随时访问生物相关数据。简而言之,每个lncRNA基因都有一个单一的页面,其中包含与其他相关数据库,注释集以及标签中链接的相关信息类别的基本链接。目前有五类信息与每个lncRNA相关,包括(i)一般信息,(ii)序列和结构,(iii)相互作用和处理,(iv)变异和保存以及(v)表观遗传修饰。

数据库的特点

lncRNA注释

 
lncRNA注释源自Gencode版本12(http://www.),其由11 790个lncRNA基因和18 855个转录物组成。将lncRNA转录物分为10种不同的生物型,统计数据见上图。

 
另外,lncRNAs及其HGNC ID数据来源于人类基因命名委员会网站,其中包括1073个lncRNAs。对lncRNAdb中的99个人lncRNAs和文献通过手工处理获得了额外的映射,并且基于基因组坐标彼此重叠(如上图)。还提供稳定的内部ID以便于访问,并能够在由不同序列数据库定期使用的不同ID之间进行交叉引用。共识ID是lncRNome中的主要参考关键,也被用于参考备选转录物同种型。在适当的地方,所有的lncRNAs也被连接到相关的数据库,如Ensembl,HGNC和NCBI,以便快速交叉参考。由人工从文献调查和调查中收集的注释提供了功能性表征,例如与疾病关联,表达和功能重要性的信息。

序列和结构

LncRNA的序列是从UCSC基因组浏览器中下载的,根据单个转录本的基因组位置。RNA的结构是使用RNAfold这个工具包来计算的。为了使研究人员能够进一步进行LncRNA相关的实验,该数据库已经使用Quadfinder进行了整个lncRNA转录本中潜在的G-四联体形成基序的预测,并且使用了HairpinFetcher对lncRNA中潜在的发夹结构进行了鉴定。

LncRNA加工

小RNA集群来源于DeepBase,这是一个综合数据库,来自于公共领域的小RNA测序实验中获得的小RNA注释的综合数据库,并覆盖在lncRNA注释上以获得可能被加工成小RNA的潜在lncRNA的信息。

蛋白质与RNA相互作用

 
蛋白质-RNA相互作用的主要数据集之一来源于Argonaute(Ago)蛋白质的PAR-CLIP实验。通过将读数映射到人类转录组,提供了lncRNA转录组中潜在的Ago结合位点的全面图谱。实验数据集也存在于其他蛋白质,包括IGF2BP2,IGF2BP3,IGF2P1,PTB,PUM2,QKI,TNRC6A,TNRC6B和TNRC6C,也被映射到lncRNA转录本。由于用于蛋白质 - RNA相互作用的实验数据集数量很少,该数据还纳入了一个计算预测方法。

基因组变异和保留

为了便于进一步深入分析和实验验证lncRNA变异的影响,该数据已经包括了lncRNA基因座中基因组变异的全面映射。简而言之,相应于dbSNP 135的变异已经下载并存储,并映射到lncRNA的各自基因组位置。另外,疾病相关变异来源于已公布的全基因组关联研究的NIH目录,并映射到各自的rsID。

表观遗传修饰

为了捕获表观遗传标记,就DNA甲基化和组蛋白标记而言,该数据库已经提供了对lncRNA启动子中的表观遗传标记的全面访问。

多肽的预测

使用EMBOSS的Sixpack(http://www./Tools/st/emboss_sixpack/)工具预测所有lncRNA的ORF。该工具将给定的序列翻译成六个框架和多肽,从甲硫氨酸开始,长度≥10个氨基酸

总结与未来的方向

LncRNome数据库被设计为主要用作lncRNAs及其在人类中的功能的基于证据的资源。为此,该数据提供了lncRNA基因的稳定参考ID和一个基因的交替转录异构体,并与其他序列和注释数据库进行交叉参考,以确保互操作性和稳定的参考。生物学数据集和lncRNA资源以及手工注释整合在一起,旨在为lncRNA的注释信息提供一站式解决方案。

由于LncRNA的研究越来越火爆,更多的lncRNA正在被发现和注释,由于大量的公共领域的转录组测序数据集已经可用,lncRNome在目前的形式还是有缺陷。 主要缺陷是缺乏关于lncRNA在不同组织中表达的信息。 今后希望可以利用已发表领域中许多组织的全基因组转录组注释,克服该缺陷。

References:

整理翻译于:https://www.ncbi.nlm./pmc/articles/PMC3708617/

还有更多文章,请移步公众号阅读

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多