分享

富集分析,十年的思考

 微笑如酒 2019-03-16

转载自“小丫画图”,已获得授权。

昨天上午,“小丫画图群”爆发富集分析思想分享会~

小伙伴很心疼HT介绍的经验是在聊天记录里,不便分享和回头翻看。

于是小丫自告奋勇整理成贴,让它流芳千古。

下面是原汁原味儿的聊天记录

(你能认出几个人的头像?)

周三众筹的两幅图,昨晚已发送至邮箱,注意查收哦~

FigureYa79CNV,作者HT。输入TCGA的CNV数据,对比多个subtype的gistic score和Frequency:

FigureYa80GOclustering,作者小丫。富集分析得到那么多相似的GO term,给它们分类,同时对比多组富集分析结果图。

Y姐,FigureYa80我觉得例文原图是作者AI画的。

嗯嗯,之前就想到这个思路,画了类似的图,苦于没有已发表的文章用类似的方式展示,不自信。

偶遇这篇例文,接下来就可以放心大胆的把这种展示方法用到自己的paper里了。

接下来把它写成R包,让小伙伴用起来更方便。

画这个图的意义在哪?

是为了说明富集的条目占了多大比例么?

意义在于把相似的通路聚到一起了。

这里面涉及到Y叔的两个包,ggtree真是太好用了~

“意义在于把相似的通路聚到一起了”,这是做法,不是意义。

意义是简化结果,便于解析。好比DAVID的输出,分cluster。

(他就是本次分享者——HT)

我同意Y叔的說法。

因为繁杂的信息,本来GO term的层级就很复杂,A是B上一级,却是C的下一级,但BC貌似又是平级,很多信息有冗余。如何变得清晰明了?就需要此类加工。

Final的图上建议最好不要超过15-20个条目,否则, 基本没人认真看或留下深刻印象。

这个narrow down水平一般是hand pick,带有严重的主观性。怎样做到合理且能反映真实的data原貌?我踏进生信第五个年头了,依然无答案。

HT你来说一下。

两组差异分析后,接上GO分析。

你一般如何从这个结果得到有用的信息。

(果子问出了我们的心声)

敲黑板,划重点,下面这段必读

GO的信息很具体,具体到T细胞激活、正调控与负调控。

当然我不是说每一次出来的结果都make sense。

但整体上,我用这些Term做分析的时候,最初会按照enrich和相似性简单的narrow down。

如果我真的对其中某一个概念和Term很感兴趣与执着的话,我会重新找到发表相关功能或者通路的文章,重新构建Term的genelist

比如要做预测或者说明一个通路或者功能对生存的重要性,可以用cox回归算单基因与生存的关系(FigureYa66单因素cox),然后把好的生存与差的生存分两堆,再用我自己构建好的genelist,根据生存与表达重新算一个score, 用这个score来说明这些通路或者我感兴趣的功能是否重要。

如果你不用生存作为指针,可以选择药物敏感、迁移与否、血管生成等因素,可以选择免疫B细胞、免疫T细胞、INF、CopyNumber在某一个chormosome的水平,可以选择任意你感兴趣的, 去与这些enrich比较突出的GO term做关。这些term你可以用它提供的list,也可以自己再建立一个自己认为更为靠谱的list,来跟你想关联的事情做对接。

当然这是我不太成熟,肤浅的看法。 我也是在用这些策略寻找具体生物学的机理,欢迎探讨指正~

没有最初的富集,如同大海捞针,如何选择你要的方向? 当然目的明确就是想看凋亡,就是看增殖,就是看stemness,就是看老鼠的一个表型是否在data上有反应,那当然我上面的都是废话了。

嗯,HT讲的很好。很受益。

这里最难的是:自己再建立一个自己认为更为靠谱的list。

仅仅是你对一个概念感兴趣,建立好一个signature,加上有自己的数据,就可以发非常高分的文章了,至于怎么建立这些,我觉得也是一句两句话说不清楚的,需要大家自己多学习,多看同类型的文章。 

而且都是要下载不同公共数据的原始数据,自己一点点打磨的。

接着,再问一个问题:

两组求了差异、做了GO分析,如果我们按照刚才的方法,会漏掉很大一部分信息。

假设,我们已经看了NFkB的通路有变化。那么现在的问题是:我想知道哪些通路或者GO term上的基因最早起变化,而极大的可能是NFkB只是变化后的结果。

转到科研上,我们想找某个因素起作用最重要的原因,而不是因为课题组长期做NFkB通路就无论什么都看是不是跟NFkB有联系。

我想听听你的做法。

我的问题也来了,如果你想看到time point上的,只是两组差异,我觉得是否牵强了。

这个就牵扯到问什么问题,找什么data,或者自己实验设计了。当然比如说最近我帮助我们这边课题组做tumor immue的关系的时候,就用了最经典review的步骤来拆解data,当然是个假的时间,但是通过拆解, 你也是能看到那些immue是激活或者失活的状态。

要加上时间维度是吧。

如果仅仅是两组分析,如何选取下游的方向呢?

这是我对生物信息的困惑,我们是依靠生物信息去指导自己科研,还是就把生物信息当做是锦上添花,有就拿来用,没有就当不知道。

这一点,在GSEA分析上很普遍,只拿一个通路的GSEA画个图就说影响了这个通路。但是,实际上还有其他10个通路也被影响了。

思想的碰撞 

(厉害了)

说到底如果是NFkB,我会选择用ChIP-seq的data做一次缓冲和narrow down,如果不是TF,那需要选择其他的办法。

刘小乐教授有一个软件叫http:///BETA/。

这些都是有效帮助你narrow down你想寻找答案的有效的方法。方法可能是主观的,方法也可以是客观的。

如果你真的要问我如何选取,我的作法就是把NFkB激活过程中,相关文章的data进行下载,然后把激活程度的文章data进行下载,然后用别人的data建立层级,然后把自己的唯一两组的结果,套入别人的data中,看趋势。

这个亦是有效帮你narrow down早期事件的有效途径,可以说非常有用。

感觉这才是做生物信息。

嗯,很受益,谢谢啊。

还可以花点钱,做时间梯度RNA-seq,配合ATAC-seq。

当然一定要在鸡生蛋,与蛋生鸡,就是谁是cause 谁是consequence,这个我目前无解。眼睛看到的是一个基因, 但其实变化是连动的和网络化的。 我们如何选择或者说回到盲人摸象的阶段。

这个是具体skill 之外的思想上的纠结于探索,我们究竟为了3、5分的文章来执着的学习coding,还是为了真的解决一个问题,来坚持不懈。 说到底,都是生存人多惹的祸。

这些都是不怕分享的,知道的人越多,这个社会就越进步,而真正想通过这些策略与知识能够做好一件事情,亦需要多年的积累与互相协作,在小丫这里这么热心,最早还是虚荣心的驱使,觉得比别人懂得多一些,好像挺满足,但是后来, 还是觉得走过的路跌的跟头,还是要填平了,让下一批人平稳踩过去,然后他们在下一次属于自己的坑跌倒。 爬起来再帮助其他人,才会有一浪推一浪,大家都是在同一个位置跌倒,浪费资源,也不能成为协作互助,高效的模式。 个人愚见。

(小伙伴们最爱这一段)

人类文明本就是这样传承下来的。好东西拿出来分享,或者叫做晒,才会有那么多优秀的作品流传下来。

与之相反的是:花心思费力写好了代码,留着自己发文章用。

这个不冲突,我也没有把肚皮都割开了~~~~ 

可能我手里的好东西少吧,有点好的能拿得出手的就拿出来了

感觉这就是变相的开源

分享思想更重要。

这些年跟jianming、Y叔和技能树小伙伴,还有在小丫画图群,受益匪浅,也是从比较封闭和保守的状态,走向比较愿意share和合作的状态,其实收获非常多,除了知识和技能还有收获了很多朋友。

在比较难的时刻,总会有人拉你一下,这个也分享与您,不一定是自己的一亩三分地就要死死的守着,到最后就是被淘汰的命运,我身边看到太多这样的例子了。

很庆幸能加入到这里


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多