ID转换不用怕（二），R大神Y叔clusterProfiler包帮你忙

双峰宝林 2019-05-06

展开全文

之前Leopard老师介绍了关于用biomart包进行ID转换的方式，Byron现在给大家介绍另外一种方式，使用Y叔的clusterProfiler包进行ID转换。

简单介绍一下几种常用的ID

Ensemble id：由欧洲生物信息数据库提供，一般以ENSG开头，后边跟11位数字。如TP53基因：ENSG00000141510

Entrez id：由美国NCBI提供，通常为纯数字。如TP53基因：7157

Symbol id：为我们常在文献中报道的基因名称。如TP53基因的symbol id为TP53

Refseq id：NCBI提供的参考序列数据库：可以是NG、NM、NP开头，代表基因，转录本和蛋白质。如TP53基因的某个转录本信息可为NM_000546

简单介绍一下clusterProfiler包

clusterProfiler包是有Y叔开发的包之一，可以进行基因及基因簇的分析和基因谱功能可视化，功能强大且更新很频繁。我们今天在clusterProfiler包中用到的是其中的叫做bitr()和bitr_kegg()的函数，支持许多物种的ID转换。

一 clusterProfiler包的安装与简介

与其他的在bioconductor包中安装的方式相同

查看关于clusterProfiler包的使用文档

之后会有网页弹出，可以看到网页版说明、R代码等

二载入包library(clusterProfiler)

三载入注释包

如人类的基因组注释包library(org.Hs.eg.db)

安装方式和别的bioconductor包中的方式相同

简单地说明一下注释包：

因为在不同的物种中，都有着不同的注释信息。当我们要进行人类的基因组的注释时，我们要选择人类的基因组注释包。另外，在bioconductor中OrgDb对象支持19个物种的注释http:///packages/release/BiocViews.html#___OrgDb

四查看注释包中支持的ID转换类型

clusterProfiler包方便地提供了keytypes()函数查看注释包中的可以进行ID转换的项目。

我们查看一下人类的注释包中支持的ID转换类型。keytypes(org.Hs.eg.db)

发现我们常用的几种，如：ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中。

五进行ID转换

我们的输入如果是SYMBOL ID的话

我们打算输出为ENSEMBL、ENTREZID、REFSEQ这三种ID，

利用bitr()函数，

完整的函数是：bitr(geneID, fromType, toType, OrgDb, drop = TRUE)。

其中的参数代表：

geneID：输入的geneID

fromType：输入的ID类型

toType：输出的ID类型

OrgDb：注释对象的信息

Drop：去除空值与否

输出结果：

函数输出的对象为数据框dataframe，有利用数据框的操作方式进行后续操作。

留一个小作业，请同学们尝试一下查找自己感兴趣基因的ensembl id、entrez id、refseq id吧。以TP53为例子：

六利用bitr_kegg()函数进行基因ID与蛋白质ID的转换

和之前的bitr函数类似，完整的bitr_kegg()函数为bitr_kegg(geneID, fromType, toType, organism, drop = TRUE)

注意：

1.这里我们的输入fromType以及输出toType，允许的ID为必须为：‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一个，否则会报错；另外，kegg id的数据源是NCBI，所以这个kegg id与entrez id是一致的。

2.orgaism参数可以为：‘hsa’，代表人类。其他的物种名称可以参考kegg的网站https://www./kegg/catalog/org_list.html

还是以TP53基因为例，我们这里的输入为TP53的entrez id: 7157。

我们从kegg转换成ncbi-proteinid

我们从kegg转换成uniprot

这里我们需要了解为什么会出现3个不同了解的uniprot。

首先，在uniprot中，uniProtKB是经过专家校验的蛋白数据库集，我们一般也通过该数据库查找蛋白的信息。UniProtKB英文全称UniProt Knowledgebase（UniProt知识库。主要由两部分组成：UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。

我们分别看一下我们通过转换之后的uniprot id在uniprot数据库中的说明。我们进入数据库中查询，网站为https://www./

可以发现，P04637显示的是TP53基因的蛋白质表达水平，级别是Reviewed，就是其来源为UniProtKB/Swiss-Prot。

同理，我们可以找到K7PPA8和Q53GA5的结果。两者都是转录本水平的表达，级别都是Unreviewed，就是其来源为UniProtKB/TrEMBL。另外，相对而言，K7PPA8的注释分数要高，说明注释的程度要高一些。

七 ID转换之后

一般ID转换仅仅为开始的准备工作，将自己的数剧转换好之后可以进行后续的分析。另外，利用clusterProfiler包可以进行许多丰富的下游分析，比如GO分析、KEGG分析等等，有兴趣的同学们可以进一步学习。