转载自“小丫画图”,已获得授权。 昨天上午,“小丫画图群”爆发富集分析思想分享会~ 小伙伴很心疼HT介绍的经验是在聊天记录里,不便分享和回头翻看。 于是小丫自告奋勇整理成贴,让它流芳千古。 下面是原汁原味儿的聊天记录 (你能认出几个人的头像?) 周三众筹的两幅图,昨晚已发送至邮箱,注意查收哦~ FigureYa79CNV,作者HT。输入TCGA的CNV数据,对比多个subtype的gistic score和Frequency: FigureYa80GOclustering,作者小丫。富集分析得到那么多相似的GO term,给它们分类,同时对比多组富集分析结果图。 Y姐,FigureYa80我觉得例文原图是作者AI画的。 嗯嗯,之前就想到这个思路,画了类似的图,苦于没有已发表的文章用类似的方式展示,不自信。 偶遇这篇例文,接下来就可以放心大胆的把这种展示方法用到自己的paper里了。 接下来把它写成R包,让小伙伴用起来更方便。 画这个图的意义在哪? 是为了说明富集的条目占了多大比例么? 意义在于把相似的通路聚到一起了。 这里面涉及到Y叔的两个包,ggtree真是太好用了~ “意义在于把相似的通路聚到一起了”,这是做法,不是意义。 意义是简化结果,便于解析。好比DAVID的输出,分cluster。 (他就是本次分享者——HT) 我同意Y叔的說法。 因为繁杂的信息,本来GO term的层级就很复杂,A是B上一级,却是C的下一级,但BC貌似又是平级,很多信息有冗余。如何变得清晰明了?就需要此类加工。 Final的图上建议最好不要超过15-20个条目,否则, 基本没人认真看或留下深刻印象。 这个narrow down水平一般是hand pick,带有严重的主观性。怎样做到合理且能反映真实的data原貌?我踏进生信第五个年头了,依然无答案。 HT你来说一下。 两组差异分析后,接上GO分析。 你一般如何从这个结果得到有用的信息。 (果子问出了我们的心声) 敲黑板,划重点,下面这段必读 GO的信息很具体,具体到T细胞激活、正调控与负调控。 当然我不是说每一次出来的结果都make sense。 但整体上,我用这些Term做分析的时候,最初会按照enrich和相似性简单的narrow down。 如果我真的对其中某一个概念和Term很感兴趣与执着的话,我会重新找到发表相关功能或者通路的文章,重新构建Term的genelist。 比如要做预测或者说明一个通路或者功能对生存的重要性,可以用cox回归算单基因与生存的关系(FigureYa66单因素cox),然后把好的生存与差的生存分两堆,再用我自己构建好的genelist,根据生存与表达重新算一个score, 用这个score来说明这些通路或者我感兴趣的功能是否重要。 如果你不用生存作为指针,可以选择药物敏感、迁移与否、血管生成等因素,可以选择免疫B细胞、免疫T细胞、INF、CopyNumber在某一个chormosome的水平,可以选择任意你感兴趣的, 去与这些enrich比较突出的GO term做关。这些term你可以用它提供的list,也可以自己再建立一个自己认为更为靠谱的list,来跟你想关联的事情做对接。 当然这是我不太成熟,肤浅的看法。 我也是在用这些策略寻找具体生物学的机理,欢迎探讨指正~ 没有最初的富集,如同大海捞针,如何选择你要的方向? 当然目的明确就是想看凋亡,就是看增殖,就是看stemness,就是看老鼠的一个表型是否在data上有反应,那当然我上面的都是废话了。 嗯,HT讲的很好。很受益。 这里最难的是:自己再建立一个自己认为更为靠谱的list。 仅仅是你对一个概念感兴趣,建立好一个signature,加上有自己的数据,就可以发非常高分的文章了,至于怎么建立这些,我觉得也是一句两句话说不清楚的,需要大家自己多学习,多看同类型的文章。 而且都是要下载不同公共数据的原始数据,自己一点点打磨的。 接着,再问一个问题: 两组求了差异、做了GO分析,如果我们按照刚才的方法,会漏掉很大一部分信息。 假设,我们已经看了NFkB的通路有变化。那么现在的问题是:我想知道哪些通路或者GO term上的基因最早起变化,而极大的可能是NFkB只是变化后的结果。 转到科研上,我们想找某个因素起作用最重要的原因,而不是因为课题组长期做NFkB通路就无论什么都看是不是跟NFkB有联系。 我想听听你的做法。 我的问题也来了,如果你想看到time point上的,只是两组差异,我觉得是否牵强了。 这个就牵扯到问什么问题,找什么data,或者自己实验设计了。当然比如说最近我帮助我们这边课题组做tumor immue的关系的时候,就用了最经典review的步骤来拆解data,当然是个假的时间,但是通过拆解, 你也是能看到那些immue是激活或者失活的状态。 要加上时间维度是吧。 如果仅仅是两组分析,如何选取下游的方向呢? 这是我对生物信息的困惑,我们是依靠生物信息去指导自己科研,还是就把生物信息当做是锦上添花,有就拿来用,没有就当不知道。 这一点,在GSEA分析上很普遍,只拿一个通路的GSEA画个图就说影响了这个通路。但是,实际上还有其他10个通路也被影响了。 思想的碰撞 (厉害了) 说到底如果是NFkB,我会选择用ChIP-seq的data做一次缓冲和narrow down,如果不是TF,那需要选择其他的办法。 刘小乐教授有一个软件叫http:///BETA/。 这些都是有效帮助你narrow down你想寻找答案的有效的方法。方法可能是主观的,方法也可以是客观的。 如果你真的要问我如何选取,我的作法就是把NFkB激活过程中,相关文章的data进行下载,然后把激活程度的文章data进行下载,然后用别人的data建立层级,然后把自己的唯一两组的结果,套入别人的data中,看趋势。 这个亦是有效帮你narrow down早期事件的有效途径,可以说非常有用。 感觉这才是做生物信息。 嗯,很受益,谢谢啊。 还可以花点钱,做时间梯度RNA-seq,配合ATAC-seq。 当然一定要在鸡生蛋,与蛋生鸡,就是谁是cause 谁是consequence,这个我目前无解。眼睛看到的是一个基因, 但其实变化是连动的和网络化的。 我们如何选择或者说回到盲人摸象的阶段。 这个是具体skill 之外的思想上的纠结于探索,我们究竟为了3、5分的文章来执着的学习coding,还是为了真的解决一个问题,来坚持不懈。 说到底,都是生存人多惹的祸。 这些都是不怕分享的,知道的人越多,这个社会就越进步,而真正想通过这些策略与知识能够做好一件事情,亦需要多年的积累与互相协作,在小丫这里这么热心,最早还是虚荣心的驱使,觉得比别人懂得多一些,好像挺满足,但是后来, 还是觉得走过的路跌的跟头,还是要填平了,让下一批人平稳踩过去,然后他们在下一次属于自己的坑跌倒。 爬起来再帮助其他人,才会有一浪推一浪,大家都是在同一个位置跌倒,浪费资源,也不能成为协作互助,高效的模式。 个人愚见。 (小伙伴们最爱这一段) 人类文明本就是这样传承下来的。好东西拿出来分享,或者叫做晒,才会有那么多优秀的作品流传下来。 与之相反的是:花心思费力写好了代码,留着自己发文章用。 这个不冲突,我也没有把肚皮都割开了~~~~ 可能我手里的好东西少吧,有点好的能拿得出手的就拿出来了 感觉这就是变相的开源 分享思想更重要。 这些年跟jianming、Y叔和技能树小伙伴,还有在小丫画图群,受益匪浅,也是从比较封闭和保守的状态,走向比较愿意share和合作的状态,其实收获非常多,除了知识和技能还有收获了很多朋友。 在比较难的时刻,总会有人拉你一下,这个也分享与您,不一定是自己的一亩三分地就要死死的守着,到最后就是被淘汰的命运,我身边看到太多这样的例子了。 很庆幸能加入到这里 |
|