分享

万字长文揭秘生信高手是怎么练成的

 mynotebook 2022-08-12 发布于湖南

生信高手的入门提升秘籍

生信课题设计思路方法解析

你是否遇到过

1、好奇生信高手是怎么入门和提升的?

2、生信要学的内容太多,我该做哪些准备? 

3、生信的套路超多,总感觉缺少一个框架感?

你将学到

 1 

生信学习的关键认知

生信学习的重要性:为什么说生信是医生做科研的成败点

打造你在科研中的护城河

增长飞轮理论

理解生信本质:生信设计的底层逻辑是什么


 2 

生信课题设计框架

生信高手的IPO成长模型:3步提升你的学习速度和学习质量

输入Input(阅读书和文献,上课,训练营,与人探讨请教)

处理Process(方法论,思维模型,认知水平)

输出Output(发文章,申请课题,汇报)

生信高手的技能树:5个技能点,迅速打通生信的任督二脉

检索调研

刻意练习

模型提炼

文章复现

反思复盘

生信四步法:挑圈联靠构建生信SCI的4个关键框架

差异表达

富集分析

互作网络

临床意义


 3 

用得上的工具

生信高手的工具清单:给你的生信学习之旅按上加速键

Everything(方便电脑中文件检索)

Snipaste

搜狗微信

Chrome浏览器(谷歌学术,谷歌翻译,谷歌搜索)

Typora

语雀(或者印象笔记)

仙桃学术(www.xiantao.love)

github

 4 

从案例中发现规律

2篇典型生信文章案例:带入式学习,深度理解课程内容

Investigation of a Hypoxia-ImmuneRelated Microenvironment Gene Signature and Prediction Model for Idiopathic Pulmonary Fibrosis

Development and Verification of the Hypoxia- and Immune-Associated Prognostic Signatur for Pancreatic Ductal Adenocarcinoma

1篇加餐文献自己拆解

Multi-omics Analysis of Ferroptosis Regulation Patterns and Characterization of Tumor Microenvironment in Patients with Oral Squamous Cell Carcinoma

解螺旋-生信课01

Hello, 大家好,
我是雪球,好久不见,(*^_^*),感谢大家来听雪球讲生信。

这节课的主题叫做:生信课题设计思路解析,这个是大家从生信小白到生信高手必修的基本素质。

在开篇之前呢,我想请大家先思考三个问题

在生信研究中,有这么需要学习的内容,我们应该如何选择学习的切入点呢?

什么是“好”的生信课题设计?

如何在最短的时间内让完成从第一篇到第N篇生信的积累?

希望大家带着这三个问题完成本次课程的学习。

考虑到有的小伙伴对我还不是很熟悉,雪球在这里认真给大家做过自我介绍吧。

在我身上,有三个不同的标签:


第一个标签:跨专业学习者


我在本硕博分别读了三个完全不同的专业。我本科就读于山东中医药大学学中医,硕士呢,我考到了复旦基础医学院读神经生物学,博士期间,我在复旦中山医院跟临床老板做生信研究,负责临床和科研中的生信分析。

我在本科期间就发表了5篇核心期刊,在硕博期间发表了10余篇SCI。乍一看,这几个专业之间的唯一联系就是生物和医学,学科跨度非常大,但是其科学研究的底层逻辑有其相似之处。万变不离其宗。

关于生信,我开始也是因为兴趣驱使,自学的,当初我关注各种生信公号,买各种生信课程和代码,和解螺旋社群内的优秀小伙伴请教学习,从生信小白到一步步磕磕绊绊走过来,我也走了很多的弯路。回头想过来,如果再来一次,我可能更有重点地进行生信学习。所以,我特别想借着这个课,给大家做个生信学习的路径规划,让大家少走弯路。
在这堂课里,我的这个【跨专业学习者】会给大家给大家解决畏难心理,帮大家迅速解决【如何上手】生信这个难题。



第二个标签:酸菜的徒弟



2018年的时候,我是解螺旋的学员的早期学员。最开始从接触解螺旋的公号开始,当初抄了满满几厚本的笔记,后面又在千聊语音酸菜大大讲36策,惊为天人,一见萧郎误终身,后来也成了对我产生最大影响的人之一。当时就特别想认识酸菜大大,在知乎上搜索了很多如何让大佬把他会的教你类似的问题,有解螺旋的各种活动招募都积极参加,也从学员-会员-先锋班学员-到讲师-再到助教,最后在先锋班线下会上遇到酸菜大大随缘收徒弟,最终如愿所偿,因此后续有了和酸菜大大更多接触和学习的机会。

酸菜大大在2019年就筹备构建生信体系课的课程体系。酸菜大大当初得知我对生信感兴趣,于是和我商量计划构建生信体系课的时候,给大家讲了一节生信研究方法论,打响了解螺旋生信生信体系课课程的第一枪。在当时的学员反响很好,我感受了酸菜大大强大的提炼模型和方法论的能力。

在后面在生信体系课和一些业务的对接中,有幸近距离观察和学习酸菜大大的思考问题的模式。这堂课里我也会分享作为酸菜大大徒弟,在跟酸菜大大近距离学习过程中的一些心得和思考。



第三个标签:解螺旋生信负责人



2019年年底,解螺旋生信体系课上线以来,我在酸菜大大的帮助和指导下,一步步构建了解螺旋的生信社群,挑圈联靠的生信公号,以及接触到了上千位生信学员,帮助上百名学员顺利发表生信SCI。

在接触各种小白生信学员的过程中,帮学员答疑的过程中,我发现大家都有很多共性的问题,很多生信入门不了的原因,要么是依赖性思维,要么是没有刻意练习,要么是没有掌握正确的学习方法。

雪球希望通过这堂课,给大家介绍一些实用的生信学习和分析的方法,让大家学了就能用,就像你的朋友一样,站在你身边,帮你补足在生信学习中的短板,少踩一些坑。

好了,自我介绍就讲完了,下面,我们进入正题。

预热思考题

你可以认真问自己个问题,一个生信小白到生信高手的底层逻辑是什么?如果我想学好生信,应该学会哪些必备技能?

第一个题目:关于生信的学习方法




为什么大家同为解螺旋学员,接触到相同的生信课程,有一样的参加解螺旋训练营的机会,有的三个月就能搞定常规生信的SCI图表,有的人学了两年连基本的生信思路都说不清楚?

大家的学习效果差异为啥如此之大?

能不能通过刻意练习,通过反馈形成自己的生信学习的核心能力和思考框架?

背后的核心逻辑是什么?


第二个题目:关于生信的SCI发表的最佳实践路径


会进行生信分析和能顺利把生信SCI投出去并顺利接收,这当中还有一个巨大的横沟。

雪球在对学员培训生信写作、投稿、返修的时候,发现即使学员们在我们的指导下都顺利完成的分析部分的工作,但是文章接收的快慢还有很大的差别。

雪球复盘了200多位顺利发表生信SCI的学员,发现优秀的学员都有很强的自驱性,或者叫“气味”。

比如:写作效率很高,能用空杯心态接受老师建议,擅长调研和找路径。我相信,这种特点和气味儿,不仅能帮他们增加发表生信SCI的成功率,扩展到科研方向的SCI或者课题申请,都会有比较高的成功率。

那这些特点和气味儿,背后的底层逻辑又是什么?

这两个话题很难,希望大家认真想一想,底层逻辑和规律是什么?

雪球在解螺旋生信季的第一节内容的主题是,生信课题设计思路解析,帮你打造生信学习的超强认知

一、生信学习的关键认知

生信学习的重要性:为什么说生信是医生做科研的成败点?


大家可以想一想,为什么生信研究近几年这么火?

因为搞科研这个活儿,难度系数实在是太高了。

如果选择做基础科研,你最起码需要有实验室的一间实验台,需要有科研经费采买各种试剂和瓶瓶罐罐,需要花时间养老鼠,养细胞,基因鉴定,细胞转染,跑 WB,PCR、流式等各种实验,还要自己解决报税、申请伦理、标本收集等各方面的问题。

实验一做起来,时间和经费上都是个巨大的无底洞。

毫不夸张的说,有的运气不好的小伙伴,光造动物模型这个事就干了两年多。没办法,模型不成功,后面表达和下游信号通路探索都进行不下去。

但是基础科研也是后续申请省市级课题的基础,该做还得做,绕不过去,但是作为一穷二白冷启动期,确实只能远观不能亵渎。

如果选择做临床科研,要么自己科室本身就有大量的患者随访数据,要么靠挖公共的临床数据库的

资源。在早年间,Meta分析很火,很多医生都赶上了这波红利,汇总一些文章,从不同的角度出发,一年发十几二十篇文章的都大有人在。

但是因为风头太盛,而且题目里必有“meta”的字眼, 后面meta分析不能作为很多高校的职称晋升和拿学位的标准了,Meta的热度就下来了。

但是临床研究水平也是临床医生必不可少的技能点。有多少临床课题,有没有高水平的临床文章,也反映了临床医生的江湖地位。

毕竟,如果有一篇改写指南的代表作,那在你的小圈子里肯定算得上是巨佬级别的人物了。



为什么最近生信这么火呢?


 1 

第一个原因,是时代的红利


什么是红利呢?官方的说法是:
🎯红利是对客观存在的市场规律,对洞察力的奖励。

随着常规的测序成本下来,稍微有点经费就能做测序,发个2-3分的文章绰绰有余;
另外,测序又不断有新的测序类型和产品不断涌现,而且高端玩家也能钛金新技术,做第一个用该技术在本领域内的文章,就可以发到高影响力的期刊上;

如果没有科研经费,或者没有测序样本怎么办呢?
公共数据库存储了越来越多的测序数据,或者很多高分测序文章都提供了测序样本的补充材料,可以免费供研究者挖掘;

二次数据挖掘的数据库,以及市面上各种生信教程,降低了学习门槛。

可以说,无论你是贫穷还是富有,无论你是小白还是大咖,生信可以高效的满足你科研连续文章产出的需求。


 2 

第二个原因,是生信的百搭性和实用性

在老板随手扔给你一个课题方向的时候,你想过如何拆解这个课题,变成一个具有可行性的执行方案吗?

首先分子怎么来?是看文献一个个盲猜,还是通过自己动手用公共数据筛?接下来信号通路选哪条,表型应该靠哪个?

如果看文献来猜的话,每一个筛选步骤下来,需要调研的文献都是指数级增加。

而且你写在文章或者课题里,专家总有种你不靠谱的感觉,为什么选了这个不选哪个?

在数字化和讲究定量的科研时代,没有点生信测序结果,都有点拿不出手。无论是基础文章中的分子、机制、表型的筛选,还是和临床研究结合,用高通量数据构建临床变量的预测模型,都是很好的给科研增加论证维度的升级利器。

生信之于科研,就好像你出门后的高德导航。

另外,更务实的一点,发生信文章是目前最具有性价比的选择,具有周期短、起效快的特点。

目前生信文章在高校和医院都是被认可的,用来晋升职称和拿学位都是允许的。

雪球当年有一篇基础实验一直在投,迟迟不中,后面紧急补了个生信文章,擦着边靠生信文章毕业。

生信文章的题目还有一定的隐蔽性,有些生信文章起的题目和基础实验类似,在申请课题的时候,专家粗略一瞅,说不定也误认为是基础科研类的文章。

未来生信在生信研究中的比重肯定会越来越高,也会有越来越的科研工作者掌握生信,生信会逐渐成为医生的刚需技能。

与之相对应的,生信的发文章的门槛也会越来越高。

如果你做的是纯生信研究,会有审稿人要求你补实验,补越来越多的的实验;

如果你做的是纯基础或者临床类的研究,在投稿的时候,肯定也会有严谨的审稿人要求你做一组生信解释一下你的分子、机制、表型和临床变量怎么筛选的 。

目前生信还在红利期的中后节,遇到红利最正确的应对姿势是:
🎯发现红利,吃掉红利,构建能力

趁着今年,还有一些期刊还收纯生信文章,有一些3-5分的期刊对生信的分析难度还没这么高。

还在岸上徘徊的小伙伴要抓紧入坑了。

通过红利期,积累几篇生信文章,当作科研生涯的打底;

等生信红利期过去,把生信当作自己武器库中的一个常见兵器,有机融入到你在科研中的每个环节,让生信起到为你科研探索方向出现岔路口的投石问路的探路器。

当你吃到了生信红利,就会迅速构建起属于你自己的增长飞轮。

增长飞轮的理论,最早出自于亚马逊。

贝索斯的商业哲学是通过更低的价格,更优的选择,更快的交付,推动其商业帝国的高速运转。对于我们科研工作者也是一样。

当你在没有资源,没有经费的时候,通过生信红利,有了一些文章的积累之后,会有更多的课题,能有机会申请到名校名导的研究生,获得更好的科研资源和环境,从而进一步促进科研成果的产出,形成正向循环。

在三年五年,甚至未来几十年的时间维度里,打造你自己的科研壁垒 ,起码做到在同行业内中上的水平。

当你回过来看的时候,你在职业生涯里转变的那一点,就有可能是当初抓住了生信的红利,发的那几篇文章开始。


图片

不能说绝对,但是雪球相信,对很大一部分医生来说,生信能力的高低很大程度上是决定了你做科研的成败点。


如果这么性价比高的SCI科研方案都搞不定,其他费时费钱费力的基础科研,也很难做的很好。


学习能力的差距:生信高手有哪些学习习惯


接下来,我们聊一个最基础的话题,生信高手是怎么炼成的?

换句话说,生信核心能力成长的底层逻辑是什么?

很多人可能觉得自己在生信这件事上投入的时间和精力够多了,就是因为“笨“或者没有这块学习代码的天赋。可事实真的是这样吗?

一提到生信学习,大家总是习惯性的想到这些事情:

多看文献,多看代码,多看教程,多听多看多问多做

只要多听,多看,多问,多做,就能迅速上手生信了吗?那到底生信学习的捷径在哪里呢?


【划重点💡】直接说答案,生信高手的底层逻辑在于:刻意练习。

【调研🙋‍】 大家学过《刻意练习》相关的书或者课程吗?


图片

什么是刻意练习呢?

著名的心理学家埃里克森在”专业特长科学“潜心几十年,研究了一系列行业或领域中的专家任务:国际象棋大师、顶尖小提琴家、运动明星、记忆高手、拼字冠军、杰出医生等。
他发现,不论在什么行业或领域,提高技能与能力的最有效方法全都遵循一系列普遍原则,他将这周通用方法命名为”刻意练习“。为此著作了这本书《刻意练习》。
这本书的核心观念就总结了一句话:高手,都是练出来的

刻意练习,是专门为了”提升能力“而设计出来的练习方法。刻意练习,有四个必须要素:套路,非舒适区、重复、反馈




 1 

首先来说套路练习

套路就是门路,门在哪,路在哪,别人都摸索明白了,而你不知道,别人告诉你一套门路,你去学习了就能按图索骥,不进错门不走弯路,快速到达目的地。

专业人士在基础训练的时候,学的都是套路,比如围棋的定式,编程的算法,数学的公式,物理的定理,都是套路。

对于生信而言,套路主要讲课题设计。

生信的研究套路就是把生信类的文章大量拆解,拆解成各种模块化的要素,有哪些恒量有哪些变量,有哪些加加减减的排列组合,有哪些逻辑链接,掌握了这些,基本上可以完成一个生信课题的设计。


 2 

第二个关键要素:非舒适区

如果你想成长,在生信领域有所精进,需要跳出舒服的,自动做事的范畴,对标高手,不断挑战难题,才有机会成长。
在生信研究方面,比如同一类文章套路,你用零代码的方式发表过几篇文章,下一步就需要考虑研究复杂度的升级,不要老是沉迷于老套路,去追一些高分生信文章的课题设计方式和分析方法,争取发表影响因子更高的SCI文章,申请更高规格的课题。
沉溺于过去的成功经验,并不能代表未来你能始终追赶上生信研究套路的新趋势。


 3 

第三个关键要素:大量重复

重复是无聊又是必须的,大量重复有利于你形成肌肉记忆的条件反射,以及对套路内核更深刻的理解。

在解螺旋生信部面试的时候,我们的技术主管总喜欢问面试者一句话,你一共写过多少行代码。这个问题的本质其实就是问代码的功底的最粗略的评估。

早年间,雪球在网上学生信的时候,也认识了几个生信大神。他们的生信入门之路都如出一辙,都是比着几本R语言书《R数据科学》《R语言实战》整本书的敲代码敲了几遍。
如果想写好R语言代码,离不开对常见统计学分析、可视化图表的常见代码的反复练习。多敲R语言代码,练手感的重要性,就好像你在学习武功的时候,练习蹲马步一个道理。


 4 

第四个关键要素:反馈

你在做的过程,需要拿到反馈,告诉你下一步怎么调整。反馈就是起到教练的意义,能以旁观者的角度提供及时反馈。

不管在练习任何技能或提高能力,大部分人很容易陷入自我而不察觉。相对于球类运动、围棋,科研比较特殊,很难有专门这样的【高水平的教练】。

解螺旋正是通过大量的课程、生信讲席营,各种主题的训练营,都配有助教老师,就是为了帮助大家及时反馈。

我们希望大家用科学的方法去做科研,用更高投入产出比的正确姿势更快学好生信。

总结一下,生信高手都有个刻意练习的过程:套路、非舒适区、重复、反馈,缺一不可。


学什么是好的生信课题?


今天的课程内容比较多,我们直奔主题吧。这个是雪球总结的“好的生信课题的四要素”。我快速读一下,让大家提前有个框架感。

1、理解本质:我们做生信研究,究竟在研究什么?

2、课题拆解:如何拆解我的科研假设?

3、提炼重点:课题设计的重点、逻辑链条和创新点是什么?

4、高效验证:如何性价比最高的验证你的生信结论。

生信研究很重要,生信很百搭,那生信研究的本质是什么呢?四个字概括,就是挑圈联靠。

雪球先给大家拆解一下什么是测序。

所谓测序,就是通过大规模对样本不同分组间的基因的检测,得到其在不同维度的定量结果,如果是在基因组层面,就看有哪些基因突变;如果在转录组层面,就看有哪些基因的mRNA表达变化;依此类推。

所以,拿到整理好的测序数据的第一步,就是找有哪些不一样的基因,把这些异常基因拎出来,也就是我们常说的”挑'的这一步。

我们现在手里有一些异常基因,孤零零的也没啥用啊,于是有人想到可以把这些基因进行分类,将其和生物学功能联系起来,看看这些基因和哪些通路有关、和哪些表型有关、和哪些细胞亚群有关。这一步联系,就是我们“圈”的这步,把基因进行分类。

除了这些分子进行生物学归类,也可以看看这些分子的内部之间的相互联系,或者对外的相关关系。于是也有了“联”这一步,看看分子之间互作网络,分子的靶基因,分子与其他类型小分子的联系。

有了生物学的关联,如果测得是人的样本,还可以收集到一些临床变量。我们还可以把测序数据和临床数据联系起来,看看不同亚组之间的基因特征联系,看看构建个临床预测模型,是否有可能成为临床变量的预测因子。这一步就是我们常说的“靠”这一步,看看有哪些临床关联。

我们现在知道了生信研究的本质,还需要课题拆解、提炼重点、高效验证三步,才能完成一个好的课题设计。

因为我们本堂课设置的培训的内容很多,这三个要点,雪球在后面几期课程中会给大家详细介绍,这里大家先有一个初步的印象。

二、生信课题设计框架

 1 

生信高手的IPO成长模型:3步提升你的学习速度和学习质量


下面这个话题,我会用生信代码分析的思路,给大家拆解一下生信高手成长的IPO模型。

IPO是什么呢?我在这里当然不是指“上市”。

IPO是《未来简史》中提出来的思考方式:任何计算机的算法意义,人的一生也是一个数据处理的过程,那么认知升级,就是某部分算法迭代和优化的过程。

但凡算法,就会涉及到三个过程:输入(Input),处理(Process),输出(Output)

输入Input(阅读书和文献,上课,训练营,与人探讨请教)

处理Process(方法论,思维模型,认知水平)
输出Output(发文章,申请课题,汇报)

图片

说的再直接一点:你的学习能力,就是你的IPO的速度和质量。

图片

这个是一个非超好的思考模型,任何一个科研工作者对任何一个领域的学习能力,或者学习效率,都可以拆解到这三个环节,然后看看是很差,一般般,比较平庸,还是优秀。

你可能也观察到身边很多生信高手跟你说他自己的学习习惯,有的人从大量文献检索,然后复现,找资料去模仿,然后学的很好;

有的人会跟你说,他参加了一些高质量的生信训练营,在营里跟着一天天学习,迅速入门生信;还有人说,他上了网上各种生信课程,东学学西学学,也学的很好。

这些人的学习能力到底哪个更强一些?哪个更适合你来模仿学习?

我的答案是:无从判断。

其实单纯从学习方法和学习习惯来看,太表层了:

上了各种生信的课程?但是也有可能是将各种内容的精华都吸收了,取其精华,也有可能是囫囵吞枣,没有深入思考的能力;

靠自己复现文章提升生信分析能力?也有可能是阅读了极少经典高质量的文章和代码文档,完成了高质量的思考和练习。
所以,真正重要的是生信学习者IPO的质量,也就是信息输入、处理和输出的速度和质量,而不是表面上的学习习惯。

这个环节,雪球准备了一个Checklist自查清单,包括8个关键问题,你可以认真回答一下这些问题,看看你是不是做的到位。

生信学习者的IPO模型 Checklist
一、信息输入(Input)
1、你每天都在学习生信的哪些内容?
2、你真的善用所有的生信学习渠道吗?
3、你现在的生信学习内容和质量,你可以如何大幅提升?
二、信息处理(Process)
1、你能看懂生信文章的来龙去脉、逻辑关联吗?
2、你有梳理过生信文章套路吗?你掌握了多少个?
3、面对不同的生信文章,你是否有自己的完备的生信套路框架来套?
三、信息输出(Output)
1、你现在有哪些方式输出你的生信学习成果?
2、你现在的学习深度真的足够吗?

1、输入(Input)
你听过一句话么?你读什么书,就会变成什么人。这个背后,就是说信息输入的重要性。
下面根据这个检查清单,雪球给一些我的建议。
1)你每天都在学习生信的哪些内容?
我相信大家都深有体会,随着年龄的增加,时间也会感觉越来越快,老是感觉时间不够用的。
精力是我们最宝贵的财富,在有限的时间内,建议多多学习生信思路拆解、高水平的生信分析和可视化的教程,以及追新一些在对你略有挑战的文章拆解。
2)你真的善用所有的生信学习渠道吗?
总结一下,生信的学习通常来自于4种途径:
  • 一是实际生信分析中的感悟(做课题复盘)

  • 一是从阅读学习中获得(生信相关的微信公号,课程,博客,论坛)

  • 一是从高水平的交流获得(朋友交流,训练营助教答疑,咨询)

  • 一是从高分文章中学习(顶级文章的套路,算法,逻辑衔接,配色构图)

反思一下,这些渠道你都有在用吗?是否有什么短板或者盲区?
3)你现在的生信学习内容和质量,你可以如何大幅提升?
如果一个生信学习者,生信内容的阅读的信息质量是你的10倍,那几乎可以断定,他的学习效率至少也比你高出几倍。
刚开始学生信的时候,你可以从1-3分的生信文章看起,等到一定阶段,就应该更新到3-5分的生信文章套路拆解;再过一段时间,再提升文献阅读的质量的难度;
再比如生信公号的阅读,在学习的初期,应该大量的时间来看生信文章的解读和简单图表的复现,等到后期,应该更多阅读整篇文章的高分文章复现,或者新套路的生信分析方法。
真正有价值的信息其实是凤毛麟角的,随着学习程度的进阶,你应该不断更新阅读源,来不断提升你的信息质量。
2、处理(Process)
第二个环节是处理,当信息进入你的大脑,不同人有无数处理方法。
同样一篇文章,一个课程,一个训练营,让不同的人接触学习,大家最终得到的收获可能完全不同。
如何更好的处理信息?
你需要关注本质,思维模型和思考框架
图片

这部分比较难,我给几个简单的建议:
1)、你能看懂生信文章的来龙去脉、逻辑关联吗?
我在协助学员文章返修的时候,经常会遇到审稿人问,你这个生信课题的主要结论是什么?
我们平时在设计课题的时候,也要注重文章的逻辑和前后顺序。
当然,课题设计的模板没有固定答案,比如技术路线图放到最后一个图和第一个图没啥差别,有时候生信课题设计中个别分析排列组合的顺序变化一下也是允许的,但是你要理解生信分析合理配置图表的“度”在哪里,要了解各种分析的内涵和外延,以及其适用条件,不能看上去可以就蛮用。
在生信分析中,也存在着很多功能相似的分析,但是都有其不同的试用条件,在合适的场景取用合适的分析很重要,能够把生信课题讲成一个有前后逻辑、有亮点的故事很重要。
在生信文献学习和学可视化分析的过程中,需要你学着梳理文章的前后逻辑,每个分析试用的内涵和外延。

我这里列举几个生信分析中,大家易错的点。

比如同样是功能富集分析,GO/KEGG和GSEA分析就有很大区别。
GSEA分析中的输入文件,不仅是基因名,还有所有基因的表达值。这与我们进行GO/Pathway分析时输入差异表达的基因是不同的。
我们在做GO/Pathway富集分析的时候,是首先判断差异表达基因,然后再看差异表达的基因所参与的功能;而GSEA分析则根据一组基因的整体表达趋势来看该组基因是否有差异。
常规的GO/Pathway分析是这样:先从10000个基因中找到差异基因800个(倍数>1.5倍),然后再分析功能;
而GSEA则把10000个基因全部放进来,不管差异倍数是1.5还是1.1,统统进行考量和富集。
再极端一点,如果某条通路的分子大部分都被上调了,但是倍数只有1.3倍,常规的分析会遗漏该通路,而GSEA分析则能找出来。这一点是GSEA与常规富集分析最大的区别。

另外,在单基因的生信文章套路中,分组是按单基因的表达中值为分界线,把疾病组分成基因高表达组和低表达组进行分析。雪球遇到很多小伙伴就直接拿着疾病组+对照组进行基因表达中值的分组。

说到底,这两种情况都是不理解每个生信分析的概念,不了解这些分析的内涵和外延;没有把生信分析的逻辑理解透,导致的概念上的问题。

2)你有梳理过生信文章套路吗?你掌握了多少个?
生信的文章套路,就是你在生信研究中的思维模型。
当你没有整理套路的意识时,你看到的每一篇生信文章,每一个生信分析都是新的,零散在一地的;
当你有意识把他们进行分类整理成不同套路的时候,你就逐渐建立了一个生信套路的主干,这时候,你看到的每一篇新的文章都是一片叶子,相同的内容可以迅速领会,而不同的内容都会当作一片新的叶子有条理的挂在对应的枝杈上。
日积月累,你掌握的文章套路的变换组合就越来越多。

雪球在学生信的时候,也会定期整理不同的套路,在pubmed里输入特定的检索词,积累大量有共同特征的文章套路,然后逐条看过去,列成思维导图或者用Markdown笔记记录整理个别不同分析的亮点和精华,通过这样的方式迅速掌握一类生信课题设计思路。

这里雪球把自己积累的文件夹放在这里,大家也可以自己对文章套路的汇总梳理方法。具体的分类方法并不是非常重要的,重要的是你开始这个文献梳理的动作。
最开始接触到一类新套路的时候,你可以先梳理提炼一个最简的课题设计模型;通过大量的文献梳理,充分做加法,了解这个套路的各种变化排列组合方式;
然后专业做减法,萃取关键知识,通过做笔记、画思维导图的方式,梳理哪些是必备的分析模块,哪些是可以加加减减的组合,哪些是有难度的分析,哪些是创新点,然后提炼出最与你现在的课题相近的科研假设和分析路径。

图片
通过这样的大量内容积累,你会锻炼出来一种对生信发文章的手感。
很多学员经常问雪球,雪球老师,我的这些生信图表,能发几分,能投哪些期刊?
雪球老师,我这样的分析有问题吗,还需要加哪些分析内容?
所有的答案都在文献中啊,只要你花了这个功夫把这些准备工作做好,雪球相信,你的这些疑问都会迎刃而解。
3)面对不同的生信文章,你是否有自己的完备的生信套路框架来套?
在你学生信的过程中,主要的两大难点一个在于生信的课题设计,一个就在于生信的分析和可视化。生信的分析和可视化是术的层面,涉及到大量的重复练习、复盘总结,这里我们主要就道的层面,让大家建立一种对生信文章套路设计的框架感。

什么是框架感呢?
就是当你面临一个研究课题或者分析需求,不是随机寻找解法,而是有一个完备的思考框架,让你完整思考,做出一个完善的设计方案。

一个有创新性的课题设计,就是一道解答题。
举个例子,比如我做乳腺癌方向,对耐药感兴趣,最好还能和免疫微环境联系起来,后期还想加点实验验证。

雪球是这么拆解方案设计思路的:
1、因为有实验验证的需求,这时候首先排除选择单基因设计方案。
因为实验验证具有不确定性,你没法保证单基因验证就一定能得到阳性结果,因此最少要筛选出3-20个基因来验证,保证实验增加阳性结果验证的可能性。
2、免疫微环境分析有很多常规的R包,我的数据集的表达矩阵可以整体做免疫浸润分析,同时,我也可以做关键基因与免疫浸润的相关性分析。
图片
3、课题里有耐药的分析需求,这时候有两种解法。
最佳的肯定是找到乳腺癌中耐药/非耐药的样本进行生信分析,如果这些样本没有临床信息,就以关键基因为连接点,看看这些基因在TCGA里的临床意义,做临床预测模型,临床相关性分析等路径。
第二种解法,是在我要研究的癌种中,没有这样分组要求的样本,这时候我是不是没法研究耐药这个表型了呢?
当然不是,我们可以选择乳腺癌这个疾病里既往发表的耐药的文章,收集相关基因列表,尤其可以关注高分文献中有没对乳腺癌耐药基因的汇总;
也可以在表型基因集里看看耐药表型涉及到了哪些基因列表;
同时也可以看看表型数据库,或者某类热点表型特定的基因库,看看有没这样的表型基因列表。
4、接下来,我们可以根据实际获得的样本数据集汇总情况,套用近期发表的类似的套路框架设计课题。


3、输出(Output)
好,讲到最后一个环节,输出Output。
大家听过学习金字塔这个概念吗?
不同的人,面对同一个材料,吸收的效率可能差三五倍,甚至十几倍,而核心,就是学习方式和深度。
图片
如果你只是单词被动学习,比如听课、阅读等,学习的效率很低,内容的留存率不到10%。
而你采用主动学习,比如讨论,实操,或者来解螺旋当生信助教,或者进入解螺旋的生信卓越计划每周与高手讨论,有老师帮你指点和复盘,留存率会是50%—90%。
所以,你可能注意到,有很多生信高手或者程序员,都会定期写博客,分享代码笔记,或者解螺旋社群内有很多助教老师,都是从当优秀助教做起,后面也促进自己的学术成果的产出,他们都是用这种方式,来沉淀学到的东西。
大家要记住一点,走马观花式的学习是毫无意义的,贪多嚼不烂。
雪球希望大家用尝试文章复现,写代码笔记,或者来解螺旋社群当生信助教的方式,来进行定期的自我分析、自我讨论和自我复盘的机会。

好的,Output我就讲完了,希望大家自我反思一下:
1、你现在有哪些方式输出你的生信学习成果?
2、你现在的学习深度真的足够吗?


 2 

生信高手的技能树:5个技能点,迅速打通生信的任督二脉

好,我们进入下一个话题:生信高手的技能树。

检索调研

Pubmed/谷歌学术/Geenmedical网站关键词检索
问周围的朋友,请教助教老师
刻意练习
课题设计
可视化/统计分析
报错解决


图片
图片

图片
图片
图片
  • 模型提炼


  • 文章套路梳理


  • 常见R分析代码模块化



  • 文章复现


  • 难度逐渐增加


  • 从零代码,到代码比重增加


图片
  • 反思复盘


 3 

生信四步法:挑圈联靠构建生信SCI的4个关键框架

差异表达

富集分析

互作网络

临床意义


图片
图片

三、用得上的工具

生信高手的工具清单:给你的生信学习之旅按上加速键

Everything(方便电脑中文件检索):下载 - voidtools

图片

Snipaste(强大的截图、贴图软件,可编辑,可图片置顶) (https://www./)

图片

搜狗微信(用于搜索生信类的文章)搜狗微信搜索_订阅号及文章内容独家收录,一搜即达 (sogou.com)

图片

Chrome浏览器(谷歌学术,谷歌翻译,谷歌搜索)Google Chrome 网络浏览器

图片

Typora(https:///code_soft/typora)专为写作打造的效率工具,支持代码模块

图片

语雀(工作台 · 语雀 (yuque.com))(或者印象笔记|你的第二大脑 | 印象笔记 (yinxiang.com)

图片

图片

仙桃学术(www.xiantao.love

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

GitHub(https://github.com/): 代码管理仓库,可以管理自己的代码,也是程序员的“代码版”简历,SCI投稿时可以用上【国内也可以考虑用GIT】

图片

四、从案例中发现规律


2篇典型生信文章案例:带入式学习,深度理解课程内容

Investigation of a Hypoxia-Immune Related Microenvironment Gene Signature and Prediction Model for Idiopathic Pulmonary Fibrosis

Development and Verification of the Hypoxia- and Immune-Associated Prognostic Signatur for Pancreatic Ductal Adenocarcinoma

拆解方法四步走:

1、读题猜要素

2、看图识策略

3、摘要看框架

4、方法揭细节

1篇加餐文献自己拆解

Multi-omics Analysis of Ferroptosis Regulation Patterns and Characterization of Tumor Microenvironment in Patients with Oral Squamous Cell Carcinoma

全文总结

这次的课程就要结束了,我们简单回顾一下。

如果这堂课只能提炼四句话的话,雪球希望你记住下面的四句话:

1、不要只看到学习的表层,要理解【生信学习者IPO学习模型】的含义;

2、根据生信高手的七大学习习惯,检查自己在生信学习方面有哪些不足;

3、生信高手八大工具,希望你根据自己的习惯取用,方法不重要,提高学习效率的意识很重要。

4、希望你能理解生信课题设计的底层逻辑,按挑、圈、联、靠四步法设计方案,用清晰的框架感拆解生信文章和设计生信课题,不要一直盲目和一团乱。

图片

END

撰文丨雪   球
排版丨四金兄
主编丨小雪球

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多