如何利用clusterProfiler获取最新的KEGG和基因对应关系

yjt2004us 2019-05-16

展开全文

本文是洲更写的，文中说到两步，其实只需要这一步，然后就可以用enricher或GSEA函数进行分析，也就是通用的分析函数，不管是什么注释，不管是什么物种，都可以支持。
这样做的好处也有一些
分析时不用联网，可以搞个local版本
分析具有可重复性，实时爬网络数据，毕竟有时候服务器端有更新的话，就会导致有一些变化。
第二步所谓需要序列，其实是想本地blast，自己注释，这种一般是和KO数据库进行比对。等候洲更的更新，看他后面怎么玩。

Y叔的clusterProfiler的一大优点就是能够利用最新的KEGG数据库，而不是停留在最后一个公开版的KEGG数据库(2011-5-15).

大部分情况下，大家都是直接用enrichKEGG()或者gseKEGG()完成富集分析，但是我最近想到，我其实可以利用这个功能反向建立一个注释用的数据库，只需要两步

第一步: 获取KEGG编号对应的基因编号
第二步: 根据基因编号获取序列信息

这里只讲第一步，如何用Y叔clusterProfiler获取最新的KEGG和基因的对应关系，我们以人类为例。
先用download_KEGG下载给定物种的KEGG数据库

hsa_kegg <- clusterProfiler::download_KEGG('hsa')

这一步得到的是一个列表，这个列表有两个成员，

names(hsa_kegg)
[1] 'KEGGPATHID2EXTID' 'KEGGPATHID2NAME'

一个是KEGG的通路编号和基因编号的关系，另一个是KEGG通路编号和名字的关系

我们可以将其进行合并

PATH2ID <- hsa_kegg$KEGGPATHID2EXTID
PATH2NAME <- hsa_kegg$KEGGPATHID2NAME
PATH_ID_NAME <- merge(PATH2ID, PATH2NAME, by='from')
colnames(PATH_ID_NAME) <- c('KEGGID', 'ENTREZID', 'DESCRPTION')

最后的PATH_ID_NAME的表格信息如下

保存到本地

write.table(PATH_ID_NAME, 'HSA_KEGG.txt', sep='\t')

拓展：如何在此基础上增加ENSEMBL的编号？这可以使用biomaRt进行ID转换

library(biomaRt)

mart <- useDataset('hsapiens_gene_ensembl', useMart('ensembl'))
entrezgene <- PATH_ID_NAME$ENTREZID
# This step need some time
ensembl_gene_id<- getBM(attributes=c('ensembl_gene_id', 'entrezgene'),
                  filters = 'entrezgene',
                       values=entrezgene , mart= mart)

于是我们得到了ENSEMBL的基因编号，通过merge就可以将其添加到之前的数据框中

PATH_ID_NAME <- merge(PATH_ID_NAME, ensembl_gene_id, by.x= 'ENTREZID',by.y= 'entrezgene')

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： yjt2004us > 《生信》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

yjt2004us

关注对话

TA的最新馆藏

[转] HNSCC数据分析-GSE2379-GPL830-GPL91
生信分析过程中这些常见文件的格式以及查看方式你都知道吗？
献给初学者，手把手教你如何快速查找基因序列信息！
用EndNote编辑最适合投稿杂志的参考文献格式（适用所有杂志）
使用Python实现文件压缩和解压
出于无聊，我给你们分析了一下去年灌的生信文章

喜欢该文的人也喜欢更多

热门阅读换一换