一文献一技术路线：代谢重编程

Amazing427 2020-03-13

展开全文

首先针对部分粉丝的需求统一回答下，弗雷赛斯目前只有2种课题服务模式：

1.提供完整技术路线的中文分析报告（包括原始数据，图片及解读，用户可自行翻译后投稿）

2.深度合作，完成从选题到发表的全过程，未达到协议目标，弗雷赛斯将全额退款！

言归正传，代谢一直是生命科学中久火不衰的研究方向，原因就在于任何生命活动都离不开代谢的变化，就不用说肿瘤了。有关肿瘤代谢的研究在pubmed上多如牛毛，人们把肿瘤的代谢改变叫做“重编程”。 567 那么可以想象，特定肿瘤状态会有特定的重编程状态。

今天ZY就为大家解读一篇文献有关代谢组学重编程得的文章，发表在4月份的

JOURNAL OF CLINICAL ENDOCRINOLOGY & METABOLISM（IF=5.605）上，期刊详情。作者以去分化甲状腺癌（DDTC）为研究对象，研究其代谢相关基因的表达模式。

研究背景：

甲状腺乳头状癌（PTC）是去分化的甲状腺癌（DDTC）中最常见的组织学类型[1]，大多数的PTC是不易复发且能够被治愈的，但有5%-20%的患者会出现复发的情况[2]，有一些还会进一步恶化甚至死于该疾病。在BenMa等人之前发表的工作中，他们发现甲状腺乳头状癌的去分化是导致其预后差的原因[3]。同时，虽然有几项关于从基因组层面对差预后甲状腺癌(PDTC)和甲状腺未分化癌（ATC）的研究，这些研究表明分化良好的甲状腺癌是通过积累一些重要基因的突变，如TERT和TP53突变，进而从逐步肿瘤进展（WDTC）到PDTC最终发展成ATC的[4-6]，但PTC去分化的分子机制仍未澄清。

之前的研究在甲状腺癌中发现了代谢组学特征的改变、一些氧化应激反应的介质和异常的脂质代谢。代谢组学的分析可以有助于对恶性甲状腺结节的准确诊断和实现对PTC远端转移和癌症干细胞的预测。因此，在上海复旦大学癌症研究中心头颈外科和肿瘤科的BenMa等研究员的研究中，他们试图去找到与PTC分化相关的代谢基因，且进一步识别和PTC预后相关的代谢基因，该工作的研究思路如Fig1所示。

Fig1. 流程图

材料与方法

甲状腺癌数据：FUSCC数据集作为训练数据集，包括5个PDTC，5个PTC和6个NT（normalthyroid）；GEO数据库中下载甲状腺癌芯片数据，即：GSE29265，GSE33630，GSE53157，GSE65144和GSE76039；在UCSCXena数据库下载TCGA甲状腺癌表达数据（n=502）。

GEO平台数据处理：对芯片表达谱进行背景校正和RMA标准化处理，Combat去批次，探针注释到基因，当多个探针注释到同一个基因，取均值。

识别与DDTC相关的代谢基因：从KEGG数据库中收集70条代谢相关通路，整合通路中的基因，共得到1466个候选代谢基因。在FUSCC数据集中，通过分别计算PDTCv.s. PTC以及PDTC v.s. NT的Foldchange值和p值，得到在这两个比较集中都显著上调和显著下调的基因（|FC|≥1.5& p<0.05），并进一步和在GSE29265和GSE33630两套数据集中的失调基因取交集，得到在DDTC中显著失调的基因。

识别预后相关的signature：基于单因素cox回归分析，首先识别和预后相关的代谢基因和临床以及其他的突变特征（如BRAFV600E等特征）；再通过多因素回归分析进一步识别可以作为独立预后因素的代谢基因。将在多因素cox检验中可以作为独立的预后标志物的代谢基因挑选出来，作为影响甲状腺癌预后的特征基因。

风险模型的构建：结合TCGA甲状腺癌，利用上述预后相关基因构建风险模型，采取中位数值作为阈值将样本划分高低风险组。在TCGA数据集以及整合的GEO数据集（包括GSE29265，GSE33630，GSE53157，GSE65144和GSE76039）中分别去刻画高低风险组，并计算该预后模型分别在TCGA数据集以及整合的GEO数据集中的曲线下面积AUC值，进而评价该预后模型的性能。

功能富集分析（GSEA）：为验证这风险模型中所构成的代谢基因signature的功能，根据上述的风险得分公式将TCGA样本所划分成的高低风险标签作为phenotypelabel，70个代谢相关的KEGG通路作为背景基因集，利用GSEA软件随机1000次去完成基因功能的富集分析。

代谢基因对生存的影响：在Gepia数据库（http://gepia./index.html）验证这些代谢相关基因的高低表达对甲状腺癌病人的DFS和OS的影响。

结果展示：

1.识别和验证在DDTC相关的代谢基因：

在FUSCC数据集中，通过|FC|≥1.5& p<0.05，我们获取在PDTC v.s. PTC和PDTCv.s. NT中共显著失调（上调和下调）的121个基因（81个下调基因和40个上调基因）（如图Fig 2b），并进一步和GSE29265和GSE33630两套数据集中识别到的上调和下调基因取交集，最终得到了在DDTC中27个上调和38个下调基因，共65个失调基因（如图Fig 2c所示）。

Fig2. 失调代谢基因

2.构建预后风险模型：基于单因素分析，我们从上述的65个失调代谢基因中找到49个和生存相关的候选基因集以及T3/T4stage、LNM和BRAFV600Emutation。进一步整合这49个基因和T3/T4stage、LNM和BRAFV600Emutation这些特征构建多因素cox回归模型，发现LPCAT2、ACOT7、HSD17B8、PDE8B以及ST3GAL1这5个基因可以作为独立的预后标志物，并利用这5个基因构建风险评估模型（如下所示）。我们发现该风险模型和甲状腺癌差的预后相关（如图Fig 3d）。通过在TCGA数据集以及整合的GEO数据集（包括GSE29265，GSE33630，GSE53157，GSE65144和GSE76039）中计算AUC值去评价该预后模型，在TCGA数据集中的AUC=0.9，在整合数据集中的AUC=0.79（如Fig3所示）。

Fig3. LPCAT2、ACOT7、HSD17B8、PDE8B以及ST3GAL1这5个基因构成的标志物与PTC差的预后相关

3.高低风险组病人特征刻画：对依据上述预后模型划分的高低风险组病人进行诸如年龄、性别、Tstage，TERT突变特征以及相应LPCAT2、ACOT7、HSD17B8、PDE8B以及ST3GAL1这5个基因表达分布的刻画，通过图中的展示，发现高风险组的病人显著发生BRAFV600E的突变。

Fig4. TCGA数据集中高低风险组病人相关临床和分子特征的刻画

4.基因功能的刻画：在TCGA样本表达谱中，映射得到LPCAT2、ACOT7、HSD17B8、PDE8B以及ST3GAL1这5个基因表达谱数据，70条代谢相关的KEGG通路作为背景基因集，预后风险模型对样本划分的高低风险作为phenotypelabel，循环1000次，去看这5个基因所参与的生物学功能（如图Fig 5所示）。

Fig5. 代谢基因标志物的功能.a)在TCGA数据集中GSEA刻画代谢基因所参与的功能；b-d)LPCAT2，ACOT7和HSD17B8所参与的代谢功能。

由此，大家应该已经了解肿瘤代谢组学技术路线的要点了，主要分为以下四步，包括：获得代谢基因，预后模型构建，临床样本分层，基因功能探索。在实际应用中，可以进一步灵活使用，比如代谢组学和之前讲过的免疫分型，单基因技术路线的结合等等...

部分参考文献：

AschebrookkilfoyB, Ward M H, Sabra M M, et al. Thyroid Cancer Incidence Patterns in the UnitedStates by Histologic Type, 1992–2006[J]. Thyroid, 2011, 21(2): 125-134.

SchlumbergerM. Papillary and follicular thyroid carcinoma.[J]. The New England Journal ofMedicine, 1998, 338(5): 297-306.

MaB, Xu W, Wei W, et al. Clinicopathological and Survival Outcomes ofWell-Differentiated Thyroid Carcinoma Undergoing Dedifferentiation: ARetrospective Study from FUSCC[J]. International Journal of Endocrinology,2018.

......

生信学习需要持之以恒，大家可以到目前国内最大的生信学习社区（https:///）逛逛，尤其是神秘的SangerBox可视化生信分析软件，相信对大家玩转生信一定有益。生信套路千千万，不变的是生信的精髓:差异。生信及其他科研视频，请直接点击“阅读全文”。