分享

手把手教你单基因分析如何从1做到8

 阿非ycfg 2021-04-24
从目前发表的许多文章来看,做单基因纯生信分析的思路大多是迎合已经发表的大型研究,很难单独依靠挖掘公共数据库而发现一个功能强大的新基因,主要原因有两个:
1.在肿瘤研究中,功能强大的基因很多早就已经被研究过了,比如P53,在上个世纪就已经研究的很透彻了,所以未曾见过现在还有用单独用P53这个基因来做纯生信分析的(当然不能排除P53和别的基因联合分析);
2.如今纯生信数据挖掘不像最开始那几年随便挖一个表型都能发一篇文章,现在水涨船高,如果你挖掘到一个未曾报道的功能强大的基因,编辑第一反应就是这个表型是否可靠,第二反应就是让你拿实验进行验证。
所以,做单基因纯生信最好的打开方式就是阅读最新的文献,尤其是单细胞转录组的文章,它们会在单个细胞水平上发现很多备选基因,而由于篇幅的限制,不能把每个基因都研究一遍,而大家就可以从中挑选几个备选基因进行分析,这样既能打消编辑的怀疑,又能通过数据挖掘发现新的表型;还有一种方法是看最新报道的功能强大的基因,然后换一种癌型进行分析,因为人类癌症的异质性很大,同样的基因在不同肿瘤中可能参与不同的功能通路,然后可以进行类比,搬运到别的肿瘤中进行分析,言之有理即可。
同时还有一个技巧是,如果对所研究癌型没有要求的话,可以着重研究比较罕见的肿瘤,比如下面这篇今年刚发表在BioMed Research International(IF:2.3)杂志上的单基因纯生信文章:
Image
就是对COL1A1在间皮瘤中的表型进行分析,而且没有使用任何代码。其实有关COL1A1这个基因在肿瘤中研究已经很多了,小编随便搜了两篇:
Image
Image
但是这篇之所以能发表,首先是因为对COL1A1在间皮瘤中的表型进行分析,因为间皮瘤很罕见,从而具有较强的新颖性;当然这篇文章还有另一点可取之处是它的分析角度是肿瘤免疫浸润。一般编辑为了增加引用率都是会比较偏向接收热点研究的文章,而肿瘤免疫浸润正是这几年的热点之一,其余的热点方向还包括肿瘤代谢研究,肿瘤的表观修饰(m6A)研究等。
鉴于小编是肿瘤免疫学背景,下面就示范一个单基因肿瘤浸润分析的文章。为了方便大家理解,小编还拿间皮瘤做示范。
基础分析(1-3分)
第一步:挑基因
按照正常的逻辑是应该先看这个基因在间皮瘤和正常组织的表达情况,然后才是分析它的表型,如对生存的影响,或者是对各种免疫细胞浸润的影响。最后是解释为何产生这种影响,而小编今天要演示的恰恰相反。大家必须先认识到,既然做单基因的生信分析,那么挑出一个好的基因将直接影响到最终结果的好坏,因此必须将重点放在挑选基因上
就比如我们想研究某个基因对间皮瘤免疫细胞浸润(表型1)的影响来影响患者生存(表型2),当然可以直接挑选出影响间皮瘤生存最显著的基因来一个个看是否影响免疫浸润,但这样工作量会比较大。我们其实可以通过将最影响生存的基因和免疫相关基因取交集的方式先缩小这个范围。
关于免疫基因数据库有很多,小编给大家推荐的是IMMPORT(https://www./home)这个数据库,它整理了2498个免疫相关基因,可以直接在网站下载。另一个需要准备的就是挑选出最影响间皮瘤患者生存的基因,这个有代码能力的可以自己写代码,而小编今天带领大家直接使用别人整理好的数据,需要借用在线工具。这种工具有很多,小编给大家推荐的就是一款国产工具:GEPIA2(http://gepia2./#index)。可以通过以下界面进行挑选出最影响间皮瘤患者生存的基因并下载。
Image
GEPIA2对每种癌型都是默认给出500个最影响患者生存的基因,可以通过将这些基因和免疫基因取交集来缩小范围。这一步可通过在线工具(http://bioinformatics.psb./webtools/Venn/)做VENN图。:
Image
小编挑选了一部分免疫基因做的交集,得到17个备选基因,下面就用第二个基因OXTR来进行后续演示。
第二步:找表型
既然是挑选出的最影响间皮瘤患者生存的基因(大家可以自己测试一下),那已经拥有了一个表型。但做单基因生信分析,只有一个表型往往是不够的,下面就带大家找下一个表型。
免疫相关基因或多或少会和免疫调控扯上点关系,而免疫细胞浸润程度和这些基因也可能存在多种潜在关联。因此,如果OXTR可以影响间皮瘤患者免疫细胞的浸润,我们就可以说OXTR可能是通过影响某一种或某几种免疫细胞的浸润来影响患者生存,从而完成一个内容比较丰富的文章。
研究免疫浸润的算法有很多了,如CIBERSORT, Xcell, TIMER等,今天小编带大家使用的是TIMER的升级版:TIMER2(http://timer./).这款软件在前一个版本上增加了许多新功能,而且整合了多种肿瘤免疫浸润分析算法得到的结果,因而更加方便我们使用。
如下所示,首先进入Immune-Gene板块下,我们可以在肿瘤类型中选择MESO(间皮瘤),symbol中输入OXTR,接下来选择各种免疫细胞。下面技巧来了,因为小编自己测试过OXTR这个基因是促癌基因(高表达OXTR的患者存活时间短),因此这里就挑选出几种促进肿瘤生长的免疫细胞进行分析,如Treg, MDSC等。如果你挑选出的是保护基因,就需要挑选有抗肿瘤潜力的免疫细胞,如CD8+ T细胞,DC等,我是建议大家尽量挑选出促癌基因进行分析,因为后续如果做实验验证,比较容易做出阳性结果,如做迁徙,增值实验等。
Image
从结果中我们可以看到OXTR对MESO患者的MDSC浸润影响较大(标红的是有统计学差异的,可以通过点击进行查看),因此后续就可以针对OXTR通过影响MESO患者的MDSC浸润程度来影响生存。其实到这里就已经可以进行写作了,为了验证以上猜想,还可以利用TIMER2进行下面分析
还是上面的设置,切换到Immune-Outcome板块下,我们就能分析各种肿瘤浸润的免疫细胞对患者生存的影响:
Image
同样,你没有看错,也不是巧合,MDSC的浸润水平就是会影响MESO患者的生存,点开后发现,OXTR的表达会影响MESO患者MDSC的浸润水平。
Image
第三步:探索机制
上面已经找到了我们所需要的表型,下面就需要解释是什么OXTR可能通过什么样的机制来影响MESO患者的MDSC浸润水平,或者说是OXTR如何参与MDSC的肿瘤浸润过程。
其实很容易可以想到的就是根据OXTR在MESO患者中的表达情况,找出表达最相关的基因(根据需要设定阈值),然后通过GO和KEGG等已知的功能通路去注释。其实除了这两个比较重要的基因集外还有很多,比如REACTOM,C8(免疫专用)等,而小编接下来为大家介绍的同样是一款在线工具,而它尽可能整合了所有的基因富集分析数据库。这个在线工具就是就是 WebGestalt(http://www./),界面如下:
Image
可以通过GEPIA2找出在MESO患者中和OXTR最相关的基因做ORA(GO,KEGG)分析,也可以根据OXTR在MESO患者中高低表达分成两组做GSEA分析,然后找出和免疫细胞浸润调控的通路进行解释就可以了,具体操作上述那篇文章都有详细介绍,小编在这里就不赘述了。
最后,可以找出别的数据集进行外部验证,如利用GEO数据库的在线工具GEO2R(https://www.ncbi.nlm./geo/geo2r/)对其中MESO数据集进行分析,看看OXTR在正常组织和肿瘤组织的表达情况,或者利用ONCOMINE(https://www./resource/login.html)数据库也能完成对MESO患者的OXTR基因表达情况分析。到目前为止,我们已经基本完成一个1-3分SCI论文的体量,小编之所以说是1-3分而不都是3分,是因为大家可能找到的是不同的基因,这些基因在肿瘤中的研究情况不同,因此这是决定完成这种套路分析最后能发表的杂志水平。因此大家务必在挑基因上花费很大功夫,来挑选出具有研究潜力的基因。但是挑出的基因不能太新,比如我们研究的是影响肿瘤患者免疫浸润的基因,如果没有研究报道过这个基因的对免疫细胞浸润有作用,那编辑肯定会怀疑它的准确性。同时也不能太旧,如果一个基因已经被研究的很透彻了,再做生信分析就没有任何意义。所以,应该权衡两方面利弊,中庸之道乃为王道。
进阶分析(4-10分)
以上是为了满足大多数科研工作者的套路,是没有做实验能力的一些人而且不需要使用任何代码所需掌握的套路。考虑到有一些人还是有比较好的实验条件的,此外,还有一些人是具备代码能力的,因此小编接下来就将介绍更高阶的生信分析套路。
1.联合单细胞数据分析
基础分析部分都是基于bulk-seq的测序数据,这些数据都是平均化后的,掩盖了很多在特殊细胞上高表达的基因。而解决这个问题的技术已经出现,那就是单细胞测序技术。上面有说过近些年单细胞测序技术产生了大量数据,这些数据很多都已经公开,会代码的同志们可以通过对数据库下载下来的单细胞数据进行分析。比如,上述检测到OXTR在MESO患者中可能影响MDSC的浸润,那么肯定不是所有的细胞MESO中都高表达OXTR,那么通过分析单细胞测序技术我们就可以准确推断出是在哪一种细胞中高表达,假设MESO的上皮细胞高表达OXTR,那么就可以进一步推测可能是MESO患者肿瘤中上皮细胞高表达OXTR从而趋化MDSC的浸润。这样就增加了研究的深度,提高文章的档次。这种套路根据分析结果可以达到4-6分水平
但值得一提的是,MESO因为比较罕见,现在可能没有针对该肿瘤的单细胞数据,在分析之前需要先搜索一下目前是否已经有想要研究的癌症的单细胞数据。
3.实验验证
另一个思路就是可以通过实验验证来增加文章研究的深度。如一项在黑色素瘤中研究的某个基因影响CD8+T细胞免疫浸润水平,就可以在小鼠B16细胞系中通过RNAsi构建低表达这个基因的肿瘤细胞系,和对照组分别皮下接种给小鼠,观察两组肿瘤生长的趋势,最后可以通过酶解法提取出TILS进行流式染色。如果通过干扰这个基因的表达可以影响CD8+T细胞肿瘤浸润的比例,就可以证实我们的猜想,另外还可以检测CD8+T细胞的功能分子和标志基因的表达情况。这种套路根据实验结果可以达到5-8分的水平
3.联合分析
看到这个题目大家就可以想到,可以结合上述两步,从单细胞数据库中提取到的候选基因通过实验进行验证,这种套路就可以完成一项8+甚至10分的水平。此外,还可以通过自行收集临床肿瘤样本进行基本的qPCR, IHC等实验验证,都可以增加文章的研究深度。如有条件,还可以通过搜集所工作的医院几十例(甚至上百例)临床样本自行测序,来和数据库挖掘的结果互相验证,这会使编辑觉得分析结果更加可信。
套路千百条,条条都可以走进编辑的心。只要本着不断探索的初心,就一定会发现新的思路,但是万万不可造假,这样祸害的不仅是个人,还是生信分析整个领域,希望此文能达到一个抛砖引玉的效果,欢迎有新想法或者想实现新的生信分析思路的科研工作者和我们生信人团队联系。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多