分享

感谢ta,多少科研同学又能因此发SCI,顺利毕业了!

 微笑如酒 2018-10-05

1.我们要感谢的就是生信


什么是生信(生物信息学)?我觉得这个问题的答案应该是因人而异的。对于那些生信专业的人来说,生信是他们的专业,是他们未来要从事的行业;对于一般的科学研究者来说,生信是科学研究的小帮手;而对于部分人来说,生信是毕业,找工作或者晋升职称的利器。根据对生信不同的定义,那么,不同的人做生信研究的目的也就会有所不同:有的人从事生信研究是为了开发相应的工具和数据库,整合当前的大数据,推动行业的发展;有的人从事生信研究是为了帮助自己的实验研究,验证自己当前的实验结果;有的人从事生信研究是为了发表文章和晋升职称。总之,学一学生信对自己不会有坏处。(此篇推文主要针对第二类和第三类人,第一类的大神,我只能跪拜,然后转身离开~~~)


 那么,问题来了,我不会代码!想从事生信研究和发表生信SCI文章就一定需要学习R语言和perl语句吗?我的答案是:不一定。你要发表高分文章,也许真的要脚踏实地地学R语言和perl语句;但是,如果你只是想发表3分文章,我的答案肯定是NO

其实这很好理解,生信研究的用途是什么?----通常是帮助我们找到差异分子,然后通过一步步分析和凝炼,浓缩到几个研究可能性最高的分子(例如:gene,miRNA,circRNA,lncRNA等)。


为了实现这个分析目标,完全不需要学习R语言和perl语句,完全不需要敲代码就可以实现。你想问为什么???因为有前面所说的第一类的生信研究者,他们开发了一些工具和在线网站,而我们这些平民通过点击鼠标就可以实现这些分析,包括差异分析、共表达分析、生存预后分析、相关性分析等等,这里只想对开发这些工具和免费在线网站的工作者们说:‘谢谢你们’。


2.生信分析数据库介绍


2.1. Oncomine数据库

零成本SCI文章发表利器~Oncomine数据库

2.2. GEPIA数据库

2.2.1. 数据库简单介绍

GEPIA,全称GeneExpression Profiling Interactive Analysis,

http://gepia./index.html.) 这个数据库是2017年7月由北京大学的一位工作者(ZefangTang)开发的,相关的文章发表在Nucleic Acids Res 杂志上。这个数据库的数据来源主要是TCGA数据库


我们在Pubmed上,以GEPIA为检索词,共检索出22篇文章。虽然目前,发表的文章还不是很多,但是,大兄弟,这是去年7月份才发表的数据库。而且,从另一方面来说,发表的不多,你学会了,也是发表文章的一种机遇。


简单地浏览下发表的,我们发现有的研究者用这个数据库来做生存分析。例如:CancerScience (IF=4.372)


也有研究者用这个数据库来做基因的表达量分析,例如,Digestive DiseasesAnd Sciences IF=2.819

还可以用这个数据库来做基因在所有癌症中的表达谱分析,Cellular Physiologyand Biochemistry (IF=5.500)


2.2.2. 数据库操作介绍(以TP53为例)

2.2.2.1. 基因描述(General):



先点击General,然后在QuickSearch中输入我们的目标基因,就会在下方出现这个基因的信息。这可以让我们快速地了解这个基因的功能。


2.2.2.2. 差异基因(Differential Genes


点击DifferentialGenes,我们就可以分析在某个癌症中所有差异表达的基因。它提供了两种差异分析方法,包括ANOVA和LIMMA。根据个人使用经验,两者分析的结果基本相同。为了让自己的结果更准备,大家可以把两种分析方法所得到的差异基因做个交集。默认的参数,log2FC=1,q-value=0.01,呈现基因为top10基因。数据可以有两种输出方式:


(1)   点击list,结果如下:


展示的是差异表达的基因的信息,包括Gene ID,肿瘤中的平均表达量,正常组织中的平均表达量,log2FC以及adjP-value。


(2)   点击plot,结果如下:



展示的是差异基因在染色体上的位置。


2.2.2.3. 表达量分析(Expression DIY

2.2.2.3.1. 表达谱(profile

在Dataset部分可以选一个,多个或者全部,根据自己的实验目的而定。输入目标基因,设置好相应参数值后,点击Plot。例如,看一下TP53在所有癌症中的表达情况。图如下:


通过这个图,我们可以知道TP53这个基因在COAD,DLBC, GBM, LAML, LGG, LUSC, OV, PAAD, READ, STAD, TGCT, THYM以及UCEC中式高表达,其他癌症中是低表达。通过这种方法,我们就可以快速知道目标基因在所有癌症中的表达谱。在我们前期课题筛选过程中,这个简单的操作可能会给我们不小的提示,尽量选择那些表达量有差异的癌症中进行探索。

2.2.2.3.2. 箱式图(Boxplot

这个是和1中的表达谱基本一致的,只是展示的图变成了箱式图。如下:


2.2.2.3.3. 分期图(Stage plot

前面的profile和boxplot式比较正常组织和癌组织的,而这里的Stage plot则是比较不同分期癌组织之间某个基因的表达量。以TP53在乳腺癌中为例,操作基本同前,结果如下:



F value和Pr(>F)是方差分析的结果


2.2.2.3.4. 多基因表达量比较(Multiple gene comparison

如果我们已经获得了一些基因,然后想要比较下这些基因在癌症中的表达情况,我们就可以用Multiplegene comparison了。这里,以ABI1,ABL1,ABL2,ACKR3和ACSL3在乳腺癌中为例。我们现在Gene list中输入这些基因,然后Dataset选择BRCA,然后点击Plot,结果如下:

2.2.2.4. 生存分析(Survival

研究某个分子在肿瘤中的作用,我们往往会评估下这个分子与患者预后之间的关系,也就是所谓的生存分析(KM survival)。GEPIA数据库提供了这个功能。


我们点击Survival,就会出现如上的界面。在Gene下的检索框中输入目标基因(例如TP53),选择我们的想要评估的预后指标(OS或者RFS),确定分组标准(平均值还是分值等),坐标轴单位(Months或者Days)以及我们研究的癌症(例如BRCA),最后点击Plot。结果如下:


结果显示包括HR和logrank P值。这样的图可以直接放在paper中,前面数据库介绍中已经举例。


2.2.2.5. 相似基因查找(Similar Genes

我们知道基因发挥功能很少会单个基因起作用,一般都是多个基因一起起作用,我们称这些基因是相似基因或者相关基因。通过研究这些相似基因的功能可以让我们进一步了解我们的目标基因。GEPIA数据库也提供了相似基因的检索。

点击SimilarGenes,同样地,我们在Gene 下面的检索框中输入目标基因,选择展示基因数(默认20),然后选择数据集(例如BRCA),点击List,结果如下:

PCC是指皮尔曼相关系数。


2.2.2.6. 相关性分析(Correlation

当我们有两个目标基因,然后我们想要研究这两个基因之间的相关性的时候,我们可以用GEPIA中的Correlationanalysis。这里以TP53和EGFR在乳腺癌中为例。提供了三种分析,包括Person,Spearman以及Kendall(具体分析方法的选择一两句话讲不清楚,可以私下看看这三者具体如何选择)。界面如下:

输入目标基因,选择好相关系数以及数据集后,点击Plot,结果如下:


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多