之前我们探讨了Bulk RNA-seq的价值和学习成本(第1期. 快2024年了,还有必要学习Bulk RNA-seq?),并一起零基础完成了主成分分析(PCA)图(第2期. 零基础画PCA图)。今天我们穿插一个在转录组测序中常用的知识点与技能:不同基因ID的转换。本文将从3个方面分享:有哪些常见的基因ID类型、为什么要进行基因ID转换、如何进行基因ID转换? 一、有哪些常见的基因ID类型 1. CD31和PECAM1:二者都属于gene symbol,它们属于同一个基因,这就如同我们同时有大名和小名。gene symbol是由人类基因命名委员会(Human Gene Nomenclature Committee, HGNC)指定的基因标识符。 2. 5175:属于Gene ID命名,又称为Entrez ID,这里的Entrez,实际上和我们经常提到的“NCBI数据库”是指一个东西,只不过NCBI是一个组织(美国国家生物技术信息中心),而Entrez是一个生信检索引擎。 3. ENSG00000261371:属于Ensemble ID命名,是欧洲生物信息数据库的基因标识符。Ensemble ID由4个字母和一串数字组成,字母ENSG代表基因,字母ENST代表转录本。总的来说,Ensemble ID的命名规则是:ENS[物种符号][分子特征][独一无二的11位数字]。 其中,分子特征对应的编号如下: 可以同时看到gene symbol、Gene ID/Entrez ID、Ensemble ID。 二、为什么要进行基因ID转换 1. Gene symbol:包括两种,其中基因亚名如CD31可以让非生信人员快速辨认出这个基因,而正式的gene symbol如PECAM1则可以做基因ID转换和富集分析,以及多个数据集的整合分析。 2. Gene ID或Entrez ID:进行富集分析如GO,KEGG和GSEA。 3. Ensemble ID:往往是为了给一个分子提供一个独一无二的ID,在实践中,基本上是将Ensemble ID转化为其他ID,很少将其他ID转化为 Ensemble ID。 三、如何进行基因ID转换 代码如下: 1.R包的下载及安装
data <- read.csv("./Bulk_RNA_seq_Practice_1.csv",header = T,row.names = 1) 3.提取gene列数据 genes <- row.names(data) 4. 基因ID转换(用到bitr函数) ids <- bitr (genes, fromType = 'SYMBOL', toType = c('ENTREZID','ENSEMBL'), OrgDb = 'org.Hs.eg.db')
2.读取数据 data <- read.csv("./Bulk_RNA_seq_Practice_1.csv",header = T,row.names = 1) 3.提取gene列数据 genes <- row.names(data) 4. 基因ID转换 4.1 先加载想要的数据库(biomart)和数据集(dataset):先listMarts(),后useMart() (1)如何确定选哪个数据库(biomart)?
4.2 根据选定的数据库(biomart)和数据集(dataset),构建用于转换的数据集: useMart my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl") 4.3 基于前面构建的数据集和需要转换的基因ID,实现不同基因ID的转换
|
|
来自: 新用户4064dVjo > 《待分类》