【原】1个月接收并见刊的6分+泛癌纯生信

公号生信小课堂 2021-10-28

展开全文

“Pan-Cancer Analysis of HumanKinome Gene Expression and Promoter DNA Methylation Identifies Dark KinaseBiomarkers in Multiple Cancers”。

在本项研究中，作者分析了32种TCGA癌症类型中的人类蛋白激酶表达和相应的启动子DNA甲基化数据谱，以研究改变的蛋白激酶表达谱与相应的启动子甲基化状态相关。首先，作者确定了具有临床相关性的潜在激酶生物标志物。随后，基于Cox回归分析和对数秩检验进一步强调了PKMYT1，PNCK，BRSK2，ERN2，STK31，STK32A和MAPK4的表达与生存分析相关，是潜在的治疗靶点，值得深入探讨。最后，作者还基于无监督的聚类分析证明了蛋白激酶组表达和甲基化谱有能够区分30种癌症的能力，进一步强调了器官系统内以及组织和组织学水平上激酶组活性的相似性。这项研究利用多组学数据的结果来确定潜在的具有预后和诊断重要性的（暗）激酶标记物，希望能进一步加深对癌症中激酶的理解和应用。

发表杂志：Cancers(Basel).

影响因子：6.127

人类蛋白激酶基因表达和启动子DNA甲基化的泛癌分析确定多种癌症中的暗激酶生物标记物

研究背景

癌症是一种特异质疾病，中国2020年癌症死亡人数突破300万。不幸的是，由于肿瘤的异质性以及缺乏对不同肿瘤亚型有效的各种药物，治疗这种疾病也极具挑战性。肿瘤活化和肿瘤抑制剂的灭活，其中蛋白质激酶起着很大的作用，是促成癌症发展的主要驱动因素。激酶的活性在健康、免疫学和血液病、实体癌和混合组织中的活性分布具有显著差异。同样，在GTEx的正常组织数据集中也显示了激酶基因表达的高组织特异性。因此，在肿瘤亚型中解剖癌症相关激酶基因并确定有效的治疗目标势在必行。CpG甲基化位点是一个在基因表达调控中起着至关重要的作用的表观遗传过程。在过去的几十年中，几种靶向激酶的抑制剂已被美国食品和药物管理局（FDA）批准。但是，大部分激酶仍未鉴定，其功能信息很少。在许多癌症中，已经广泛研究了全基因组DNA甲基化和基因表达模式的变化。但是，仍然缺乏广泛的以蛋白激酶为中心的泛癌甲基化和表达分析。这项研究旨在鉴定预后和诊断性生物标志物，重点是未被研究的（暗）激酶，以进一步鼓励其作为治疗靶标的研究。

流程图

分析解读

1、数据检索

①从UniprotKB下载人类蛋白激酶基因的初始列表。

②下载496个激酶的DNA甲基化、FPKM-UQ基因表达谱以及相应肿瘤标本的临床数据。

③保留了7245个探针在KYOME基因组启动子区域(+/−1.5kb距TSS)的甲基化数据。

④移除所有缺少表达值的基因(对于至少25%的样本)和CPM(每百万计数)数小于1的基因(对于至少25%的样本)。

结果显示:

①从肿瘤样本的基因表达和启动子甲基化β值获得的t-SNE模式.

②观察到基于器官的实体癌非常接近，甚至在整合了表达和甲基化数据类型之后，这种聚类模式仍然得以保留（下图a-c）。

③二维t-SNE图显示了基于930个样本的蛋白激酶基因表达和甲基化数据，将TCGA食管癌，肺癌和宫颈癌分为腺和鳞状组织学类型，其中包括71例食管腺癌，80例食管鳞状细胞癌，414例肺腺癌，365例肺鳞癌，246例宫颈鳞癌和30例子宫颈腺癌（下图d-f）。

2、甲基化数据分析

①用β值测量分析的CpG位点的甲基化和非甲基化等位基因的强度，范围在0到1之间，β值缺失的CpG在>25%的肿瘤和每种癌症的正常样本中被排除在进一步分析之外。

②使用R“impute KNN”包，基于k最近邻的填充方法来填充缺失的KNN值。

③针对X、Y和线粒体染色体的CpG探针被排除在分析之外，以消除性别偏见。

④从微小等位基因频率(MAF)>1%的dbSNP v151中移除了与重复掩码和SNPs重叠的CpG探针以帮助消除可能影响Infinium阵列中DNA甲基化读数的序列多态性。

结果显示：

①森伯斯特图显示了在4种TCGA癌症类型中最重要的DE激酶基因（下图a）。

②在分析的癌症中观察到的上调（红色）和下调（蓝色）暗激酶基因的数量（下图b）。

③该表显示了在在前10种癌症中获得的常见DE基因列表和观察到的癌症数量，方向（上调-红色，下调-蓝色）（下图c）。

暗激酶基因用*符号标记。

3、t-SNE分析

①用t-SNE方法对启动子区域的496个激酶的表达数据和相应的7245BMIQ归一化β值进行了降维。

②合并的最终数据集包括来自30种癌症类型的7783个样本，去除缺失的数据后，具有激酶表达和甲基化数据。

③肿瘤组织学亚型信息从GDC数据门户网站下载。表达数据在0到1之间归一化，以消除分析中的偏差。

④使用R“Rtsne”包进行T-SNE，以获得数据点的坐标，并根据癌症类型进行着色。

结果显示：

①箱形图显示了不同癌症中的高甲基化（红色）探针和低甲基化（蓝色）探针的分布以及相应的平均基因表达（下图a）。

②使用T检验显示高和低甲基化探针的甲基化水平与相应基因表达水平之间的显着性水平（ns：p>0.05，*：p≤0.05，**：p≤0.01，***：p≤0.001，****：p≤0.0001）。

③在BH矫正的p值<0.05时，平均β值差异至少为0.2（Δβ≥0.2）的CpG探针被视为差异甲基化。

④每种癌症获得的高甲基化（红色）和低甲基化（蓝色）探针的分布（下图b）。

⑤前10种癌症中通常观察到的探针DM列表的甲基化方向（高甲基化-红色和低甲基化-蓝色）以及观察到的癌症数目（下图c）。

暗激酶基因用*符号标记。

4、相关性分析

①对既有甲基化又有表达数据的样本，利用R“Emap”包，利用基于非零Pearson相关性的meQTL进行DNA甲基化与相应基因表达的相关性分析。

②R“ggplot2”包被用来生成基因的泡状图。

结果显示：

①针对50Kb内CpG位点与转录起始位点（TSS）之间的距离绘制的DNA甲基化β值与基因表达之间的全癌正相关和负相关分布（下图a）。

②在Bonferroni校正的p值<0.05时，属于TSS的+/-1500 bp的Dark Kinases组中最重要的相关性用气泡图展示（下图b）。负相关以红色显示，正相关以蓝色显示。

5、生存分析

①使用R“Tools”、“Survival”和“SurvMiner”包在背景中对启动子CPGS(来自TSS的±1500bp)和基因表达数据进行生存分析。

②根据每种癌症的表达中值，患者被分成高表达组和低表达组。分析采用β值界值≥0.6(高)和≤0.4(低)。

③采用COX回归分析和Kaplan-Meier(KM)生存分析，以p值CpG0.05作为筛选有意义基因和≤探针的截断点。

④用R线性模型(Lm)函数对肿瘤和正常标本进行Logistic回归分析，利用基因表达和甲基化数据对肿瘤和正常标本进行分类。

⑤R“ROCRR”包绘制ROC曲线。

结果显示：

①在各种癌症中其表达和CpG探针的甲基化与生存分析显著相关的暗激酶列表（p<0.05）（下图a）。

②来自DGE分析的最高上调的暗激酶，其高表达和低表达组在几种癌症中的总生存期也有显着差异（p<0.05）（下图b）。

③COX回归分析和KM分析：PKMYT1高表达与低基因表达和启动子DNA甲基化位点（cg02510853）与KIRC患者的生存率相关的生存图（下图a-b）。

④广义线性模型的基因表达和启动子甲基化的相应ROC图，AUC分别为cg02510853的PKMYT1表达和甲基化的0.97和0.91，表明其作为KIRC患者的潜在诊断标记（下图c-d）。

小结：

许多激酶都与癌症的发生和发展有关。然而，由于缺乏对蛋白激酶生化和生物学功能的表型分析，目前仅将一小部分激酶作为癌症治疗的目标。因此，确定优先顺序并确定较新的激酶靶标是当今工作的重点。在这项研究中，作者显示蛋白激酶基因组的肿瘤和正常样品基于其器官系统和组织组织学的聚类，揭示了不同癌症类型之间表达和甲基化谱的共性和独特性。另外，结果也表明了单独，独立或组合的蛋白激酶基因表达和DNA甲基化谱足以实现上述分组。尽管这项泛癌研究重申了已知激酶靶标的重要性，但作者还证明了几种新型暗激酶（PKMYT1，PNCK，BRSK2，ERN2，STK31，STK32A，MAPK4）的生物学功能，由于它们与癌症生存密切相关，可以作为多种癌症的预后和诊断生物标志物。