2020年的5 生信文章什么样？

漠藩 2020-03-31

展开全文

大家好，好久不见，我是生信哈士奇

这是一篇新鲜出炉的文章，杂志大家也不陌生，生信友好型杂志。

其实在疫情期间，小编知道很多人在默默的努力，所以6-9月之间会有一大批文章产出的，不知道这里面有没有你呢？加油吧，越努力越幸运！

看看文章都干了什么：

1.故事背景

作者系统性的开发了一个跨越不同转录组平台和病人队列的胰腺癌预后模型；

通过质控和数据标准化，确定使用2个RNA-seq数据和7个微阵列数据（array）来识别胰腺癌患者中普遍存在的异常基因；

采用加权基因共表达网络（WGCNA）分析，探讨基因表达模式与临床特征之间的关系；

采用lasso和cox回归建立预后风险模型；

用过ROC曲线下面积来检验模型的预测能力；

最终确定了一个四基因signature的胰腺癌预后有biomarker。

2.文章结果展示

table 1.数据展示

figure 1.差异基因分析和GO富集结果展示——红色和蓝色框分别表示上调和下调的基因，颜色饱和度与基因水平相关；对所有DEG进行分析。每个类别（BP，CC和MF）中七个最丰富的GO术语列在左轴旁边。圆圈的大小表示富集基因的数量，颜色与相应的log 10 p 值相关；

figure 2.对RNA-seq数据进行差异基因分析和GO富集分析——内部树状图表示基因表达图谱的层次聚类，外部圆代表每个DEG的log 2 FC，其颜色对应于基因水平，最外面的圆代表分配给该基因的GO BP术语；图B表示10个最丰富的CC和MF术语。圆圈的大小表示富集基因的数量，其颜色对应于调整后的 p值。

figure 3.模块特征关系——每行代表一个颜色编码的模块特征基因，每列代表临床特征，每个单元格代表相应模块特征的皮尔逊相关系数（上位数）和 p值（在括号中）。每个单元的颜色表示相关程度。

figure 4.通过GSE62452和TCGA的单变量Cox分析确定的76个预后DEG的HR的森林图。前三列分别显示基因名称， p值以及HR和95％CI。在森林图中，保护关联显示为绿色，危险因素显示为红色。（虽然涉及到的基因非常多，但这个图其实有更好的展示形式，好好画一画可以非常美观）

figure 5. LASSO回归模型

（ A）76个预后DEG的LASSO系数曲线。每条曲线代表一个系数，x轴代表正则打分参数。随着λ的变化，系数变为非零值将进入LASSO回归模型。

（ B）交叉验证以选择最佳调整参数（λ）。红色垂直虚线穿过最优对数λ，它对应于多元Cox建模的最小值。两条虚线代表与最小值的一个标准偏差。

（ C）根据来自TCGA的训练队列的多变量Cox回归分析，四个基因的HR和95％CI。

figure 6.TCGA数据整体预后描述

图A和E:训练集和验证集的风险分布（水平虚线表示用于对患者进行分层的风险评分的截止水平，而垂直虚线则根据低风险（绿色）或高风险（红色）来区分患者。）

图B和F：训练集和验证集中总体生存和死亡分布

图C和G：训练集和验证集中不同风险患者的生存曲线

图H：时间相关的ROC曲线，用于评估TCGA 中训练集、验证集的一年和三年生存期

figure 7.在两个独立的数据集中对4基因模型进行验证

（ A）GSE28735和GSE62452队列中的风险评分分布。（ B）热图显示高风险和低风险组中四个基因的水平，每种情况的颜色对应于基因水平的log 2 FC。（ C – E）TCGA和GSE28735和GSE62452队列中高危或低危患者的Kaplan-Meier生存图，底部显示了在特定时间点剩余的患者数量。