富集分析，十年的思考

微笑如酒 2019-03-16

展开全文

转载自“小丫画图”，已获得授权。

昨天上午，“小丫画图群”爆发富集分析思想分享会～

小伙伴很心疼HT介绍的经验是在聊天记录里，不便分享和回头翻看。

于是小丫自告奋勇整理成贴，让它流芳千古。

下面是原汁原味儿的聊天记录

（你能认出几个人的头像？）

周三众筹的两幅图，昨晚已发送至邮箱，注意查收哦～

FigureYa79CNV，作者HT。输入TCGA的CNV数据，对比多个subtype的gistic score和Frequency：

FigureYa80GOclustering，作者小丫。富集分析得到那么多相似的GO term，给它们分类，同时对比多组富集分析结果图。

Y姐，FigureYa80我觉得例文原图是作者AI画的。

嗯嗯，之前就想到这个思路，画了类似的图，苦于没有已发表的文章用类似的方式展示，不自信。

偶遇这篇例文，接下来就可以放心大胆的把这种展示方法用到自己的paper里了。

接下来把它写成R包，让小伙伴用起来更方便。

画这个图的意义在哪？

是为了说明富集的条目占了多大比例么？

意义在于把相似的通路聚到一起了。

这里面涉及到Y叔的两个包，ggtree真是太好用了～

“意义在于把相似的通路聚到一起了”，这是做法，不是意义。

意义是简化结果，便于解析。好比DAVID的输出，分cluster。

（他就是本次分享者——HT）

我同意Y叔的說法。

因为繁杂的信息，本来GO term的层级就很复杂，A是B上一级，却是C的下一级，但BC貌似又是平级，很多信息有冗余。如何变得清晰明了？就需要此类加工。

Final的图上建议最好不要超过15-20个条目，否则，基本没人认真看或留下深刻印象。

这个narrow down水平一般是hand pick，带有严重的主观性。怎样做到合理且能反映真实的data原貌？我踏进生信第五个年头了，依然无答案。

HT你来说一下。

两组差异分析后，接上GO分析。

你一般如何从这个结果得到有用的信息。

（果子问出了我们的心声）

敲黑板，划重点，下面这段必读

GO的信息很具体，具体到T细胞激活、正调控与负调控。

当然我不是说每一次出来的结果都make sense。

但整体上，我用这些Term做分析的时候，最初会按照enrich和相似性简单的narrow down。

如果我真的对其中某一个概念和Term很感兴趣与执着的话，我会重新找到发表相关功能或者通路的文章，重新构建Term的genelist。

比如要做预测或者说明一个通路或者功能对生存的重要性，可以用cox回归算单基因与生存的关系（FigureYa66单因素cox），然后把好的生存与差的生存分两堆，再用我自己构建好的genelist，根据生存与表达重新算一个score，用这个score来说明这些通路或者我感兴趣的功能是否重要。

如果你不用生存作为指针，可以选择药物敏感、迁移与否、血管生成等因素，可以选择免疫B细胞、免疫T细胞、INF、CopyNumber在某一个chormosome的水平，可以选择任意你感兴趣的，去与这些enrich比较突出的GO term做关。这些term你可以用它提供的list，也可以自己再建立一个自己认为更为靠谱的list，来跟你想关联的事情做对接。

当然这是我不太成熟，肤浅的看法。我也是在用这些策略寻找具体生物学的机理，欢迎探讨指正～

没有最初的富集，如同大海捞针，如何选择你要的方向？当然目的明确就是想看凋亡，就是看增殖，就是看stemness，就是看老鼠的一个表型是否在data上有反应，那当然我上面的都是废话了。

嗯，HT讲的很好。很受益。

这里最难的是：自己再建立一个自己认为更为靠谱的list。

仅仅是你对一个概念感兴趣，建立好一个signature，加上有自己的数据，就可以发非常高分的文章了，至于怎么建立这些，我觉得也是一句两句话说不清楚的，需要大家自己多学习，多看同类型的文章。

而且都是要下载不同公共数据的原始数据，自己一点点打磨的。

接着，再问一个问题：

两组求了差异、做了GO分析，如果我们按照刚才的方法，会漏掉很大一部分信息。

假设，我们已经看了NFkB的通路有变化。那么现在的问题是：我想知道哪些通路或者GO term上的基因最早起变化，而极大的可能是NFkB只是变化后的结果。

转到科研上，我们想找某个因素起作用最重要的原因，而不是因为课题组长期做NFkB通路就无论什么都看是不是跟NFkB有联系。

我想听听你的做法。

我的问题也来了，如果你想看到time point上的，只是两组差异，我觉得是否牵强了。

这个就牵扯到问什么问题，找什么data，或者自己实验设计了。当然比如说最近我帮助我们这边课题组做tumor immue的关系的时候，就用了最经典review的步骤来拆解data，当然是个假的时间，但是通过拆解，你也是能看到那些immue是激活或者失活的状态。

要加上时间维度是吧。

如果仅仅是两组分析，如何选取下游的方向呢？

这是我对生物信息的困惑，我们是依靠生物信息去指导自己科研，还是就把生物信息当做是锦上添花，有就拿来用，没有就当不知道。

这一点，在GSEA分析上很普遍，只拿一个通路的GSEA画个图就说影响了这个通路。但是，实际上还有其他10个通路也被影响了。

思想的碰撞

（厉害了）

说到底如果是NFkB，我会选择用ChIP-seq的data做一次缓冲和narrow down，如果不是TF，那需要选择其他的办法。

刘小乐教授有一个软件叫http:///BETA/。

这些都是有效帮助你narrow down你想寻找答案的有效的方法。方法可能是主观的，方法也可以是客观的。

如果你真的要问我如何选取，我的作法就是把NFkB激活过程中，相关文章的data进行下载，然后把激活程度的文章data进行下载，然后用别人的data建立层级，然后把自己的唯一两组的结果，套入别人的data中，看趋势。

这个亦是有效帮你narrow down早期事件的有效途径，可以说非常有用。

感觉这才是做生物信息。

嗯，很受益，谢谢啊。

还可以花点钱，做时间梯度RNA-seq，配合ATAC-seq。

当然一定要在鸡生蛋，与蛋生鸡，就是谁是cause 谁是consequence，这个我目前无解。眼睛看到的是一个基因，但其实变化是连动的和网络化的。我们如何选择或者说回到盲人摸象的阶段。

这个是具体skill 之外的思想上的纠结于探索，我们究竟为了3、5分的文章来执着的学习coding，还是为了真的解决一个问题，来坚持不懈。说到底，都是生存人多惹的祸。

这些都是不怕分享的，知道的人越多，这个社会就越进步，而真正想通过这些策略与知识能够做好一件事情，亦需要多年的积累与互相协作，在小丫这里这么热心，最早还是虚荣心的驱使，觉得比别人懂得多一些，好像挺满足，但是后来，还是觉得走过的路跌的跟头，还是要填平了，让下一批人平稳踩过去，然后他们在下一次属于自己的坑跌倒。爬起来再帮助其他人，才会有一浪推一浪，大家都是在同一个位置跌倒，浪费资源，也不能成为协作互助，高效的模式。个人愚见。

（小伙伴们最爱这一段）

人类文明本就是这样传承下来的。好东西拿出来分享，或者叫做晒，才会有那么多优秀的作品流传下来。

与之相反的是：花心思费力写好了代码，留着自己发文章用。

这个不冲突，我也没有把肚皮都割开了～～～～

可能我手里的好东西少吧，有点好的能拿得出手的就拿出来了

感觉这就是变相的开源

分享思想更重要。

这些年跟jianming、Y叔和技能树小伙伴，还有在小丫画图群，受益匪浅，也是从比较封闭和保守的状态，走向比较愿意share和合作的状态，其实收获非常多，除了知识和技能还有收获了很多朋友。

在比较难的时刻，总会有人拉你一下，这个也分享与您，不一定是自己的一亩三分地就要死死的守着，到最后就是被淘汰的命运，我身边看到太多这样的例子了。

很庆幸能加入到这里