引言OTT基本算是水刊级别的杂志了,由于我最近在做WGCNA,想借鉴更多的人是怎样做到的,所以拿出来认真的阅读,让我们也学习一下如何才能灌到3分以上。 DOI :10.2147/OTT.S171791
思路
选取Top5000个基因做WGCNA,寻找软阈值,将临近矩阵变成拓扑交叉矩阵,这样可以计算节点的连接度,通过TOM将相似的基因表达模块聚类,最后计算cutline。 通过计算ME值和临床信息确定和肿瘤相关的模块、 富集分析 确定模块中的hub gene,因为hub gene被认为是最关键的基因。在一个模块中排名前30的基因被认为是hub-gene并被送去继续分析 GEPIA的数据用来做生存分析,将P小于0.05的挑出来,并将排名前5的基因挑出来。 用另一套GEO数据做验证,先做差异分析,看一下交集情况。转录水平的验证通过TCGA数据库进行。 通过CBio cancer genomics partal分析10个基因在样本间的基因改变,以及他们与其他的基因联系。
结果与结论
1.数据预处理 将20027个基因做方差分析,取前5000个基因做WGCNA,得到如下聚类。![](http://image109.360doc.com/DownloadImg/2019/07/1023/165725254_2_20190710114116210) 2.WGCNA选取阈值 ![](http://image109.360doc.com/DownloadImg/2019/07/1023/165725254_3_20190710114116351) ![](http://image109.360doc.com/DownloadImg/2019/07/1023/165725254_4_20190710114116397)
3.相关性分析 ![](http://image109.360doc.com/DownloadImg/2019/07/1023/165725254_5_20190710114116522)
开始各种相关性分析,模块之间的相关性,模块和表型的相关性。最后发现turquoise和brown模块和表型的相关性最高。
4.寻找hub gene module membership vs 基因显著性的相关性,挑出Top前30的基因进行可视化![](http://image109.360doc.com/DownloadImg/2019/07/1023/165725254_8_20190710114116851)
5.生存分析 挑出前30基因进行生存分析,将TOP5的生存分析结果展现出来 6.富集分析 ![](http://image109.360doc.com/DownloadImg/2019/07/1023/165725254_10_20190710114117132) ![](http://pubimage.360doc.com/wz/default.gif)
7.用另一套数据集做验证 做了差异分析,将差异基因和模块中的基因做交集。
8.数据库的转录组验证 文中没给出用的哪种统计学方法,也没有纵坐标,所以大家将就看吧。
9.数据库中找出这些基因的IHC免疫组化,从分子水平上验证 褐色是表达, 蓝色是细胞核不表达。这个数据库是The human protein atlas database ![](http://pubimage.360doc.com/wz/default.gif)
10.TCGA HNSC数据库看基因改变程度 ![](http://pubimage.360doc.com/wz/default.gif)
A图:10个基因各种改变的频率 B图:10个hub gene在百分之多少的病人中改变了 C图:网络,10个基因和其他50个显著改变基因之间的关系。并展示了基因和药物的关系。
全文看下来,文章逻辑还是比较清楚的,干湿结合,还有几个不太常见的数据库,真的不算很水的文章,大家可以借鉴一下。
|