NONCODE数据库是一个综合的非编码RNA数据库,该数据库中包含了除tRNA和rRNA之外的其他类型的非编码RNA信息,其中绝大部分是lncRNA,网址如下 http://www./index.php
目前最新版本为v5, 共包含了17个物种的非编码RNA, 物种和对应的lncRNA数量汇总如下 该数据库通过两个途径收集和整理非编码RNA信息,第一种是通过pubmed进行文献检索,以ncrna , non-coding 等关键词检索,然后从文章中提取非编码RNA;第二种是通过已有的数据库,比如RefSeq , GENCODE , lncRNAdb 等。 将收集到的所有非编码RNA以gtf 和bed 格式进行记录,通过compare 合并相同转录本,去冗余,对去冗余只有的转录本和基因赋予NONCODE的ID; 然后利用CNCI 预测其蛋白编码潜能,只保留CNCI 预测结果为non-coding的转录本。 以上可以得到非编码RNA的基本信息,除此之外,还提供了在不同组织或者细胞系中的表达谱,功能预测,在不同物种间的保守性, 相关疾病等注释信息,人类的非编码RNA表达谱从Human BodyMap2.0 项目和GSE30554 两个项目中得到;小鼠的表达谱数据从ERP000591 得到,lncRNA的功能预测结果通过lnc-GFP 这个软件预测得到。 通过Browse DB , 可以查看数据库中每个非编码RNA的信息,示意如下 NONCODE数据库的转录本ID以NON 开头,后面三个字母代表物种,比如human对应HSA , 接下来的T 代表转录本,后面的数字编号用于区分不同转录本; 对于每个转录本,给出了染色体位置,外显子个数,长度,CNCI score等信息。 点击每个转录本ID, 可以查看详细信息,除了序列等基本信息外,还包括以下两种信息 1. 表达谱2. 二级结构通过Function 菜单,可以检索得到lncRNA对应的Go注释, 结果示意如下 lncRNA对应的GO注释是通过ncFANS 这个在线网站得到的。 通过Disease 菜单,可以检索到得到lncRNA相关的疾病和突变信息,示意如下 官网还提供了iLncRNA 工具,用于预测lncRNA, 示意如下 只需要上传转录本对应的GTF文件或者BED文件就可以了。 对于所有物种的lncRNA, 提供了fasta 和bed 两种格式供下载,对于常见的human, mouse, rat, 还提供了gtf 格式的文件。
|