背景: 最近在做lncRNA相关的工作,首要的是解决mRNA和lncRNA的定量问题,目前已知的lncRNA的数据库有GENCODE,NONCODE等。NONCODE上面的命名方式不太通用,但是注释的物种相对较多,而GENCODE注释信息相对通用,但是只有人和小鼠的注释信息。 起初我打算选择GENCODE作为lncRNA的参考数据库,但我在查看GTF文件的时候发现其版本信息与Ensembl是对应的,于是我又下载了Ensembl的gtf文件,发现上面有lncRNA的注释信息,而且条目和GENCODE相差不多,于是我决定用Ensembl(如: ftp://ftp./pub/release-88/gtf/homo_sapiens/Homo_sapiens.GRCh38.88.gtf.gz )作为参考数据来源,一次定量既可以定量编码和非编码。根据gtf文件最后一列的“gene_biotype”来确定基因的类型。 分类说明 下载之后可以根据gtf文件提取每个基因的基因类型,“gene_biotype”说明见如下网站: http://vega.archive./info/about/gene_and_transcript_types.html |
|