Integrative analysis of genomic and epigenomic regulation of the transcriptome in liver cancer文章关键词:肝癌,DNA甲基化,组蛋白修饰,转录组近年来联合多组学分析已经成为表观领域的研究热点,利用单一组学数据分析致病因子的局限性愈发显著。通过对多种层次和来源的高通量组学数据的整合分析,系统地研究临床发病机理、确定最佳疾病靶点已经成为精准医学研究的重要发展方向。 多组学联合分析将有助于人们更加系统全面的认识肿瘤的生物学行为,进一步为寻找有价值的肿瘤标志物和探讨肿瘤相关机制提供新的线索。今年来多组学在肺癌,胃癌等癌症的研究当中取得了不错的研究进展随着组学分析技术的不断发展,整合基因组,表观组,转录组等组学分析,可以多层级全面的了解肿瘤的发生发展机制。。这篇NC文章聚焦在了肝癌这个肿瘤上面,看看组学分析能够得到什么有意思的发现呢? 简单介绍一下今天的主角:HCC,肝细胞癌(Hepatocellular carcinoma HCC)是常见的恶性肿瘤类型之一,在全球癌症死亡原因中排名第二,大约90%的原发肝癌都属于肝细胞癌。中国是HCC患病率最高的地区,每年约50%以上的新诊断和死亡的病例都发生在中国,并且我国被诊断为肝癌的患者平均年龄为55-59岁,比国外肝癌低发率国家要早近20年[1,2,3]。肝细胞癌(Hepatocellular carcinoma,HCC),全球恶性癌症死因“恶名榜”第二。中国是HCC的重灾区,不仅“贡献”50%的全球HCC新发和死亡病例,且平均年龄55-59岁比国外HCC低发国家早近20年。 一:Summary作者从以转录组的数据入手,结合基因组数据和表观数据进行差异分析。看能不能找到与肝癌的发生发展密切相关的异常基因或者是通路。 这篇文章主要关注)肝癌转录组学基因和表观遗传的差异[1] [2] 主要研究思路是:1.分析64个肝癌病人样本中,DNA甲基化(METcor)和DNA拷贝数变异(CNVcor),探究两者是否在肝癌发病上存在“共调控”作用(这里增加用到的技术手段,如富集分析、热图分析,下面亦然,读者一开始看到这里会介绍不同工具的实际应用才有继续读下去的欲望,反正我是这个样子的) 2.进一步研究,能否根据 MET cor和CNV cor进行肝癌分型,在TCGA数据库中进行验证(NMF算法) 3.筛选对HCC侵袭性影响最大的基因变异BAP1,用Huh7细胞转染实验进行验证. 2:Multi-omics integration of the CNVcor and METcor genes
reveal three prognostic subtypes of hepatocellular cacinoma. which can be
validated by an independent data. 3:The most aggressive subtype expression stemness genes has frequent BAP1
mutations, implying its pivotal role in the aggressive tumorprogression. 带着问题去思考: 二:Introduction1:DNA methylation and CNV aberrationor
mutation occur in cancer progression. 2:As HCC, genomic profiling studies demonstrated
the enormous heterogeneity of genomic and epigenomicderegulation. 3:In previous study, several key cancer-related
gene such as IGF2 UHRF1 regulation function by DNA
methylation 4:The transcription has influenced by the CNV
and DNA methylation , whether it has co-correlation is unclear . 5:Genomic and epigenomic profiles of DNA
copy-number variation (CNV), DNA methylation (MET), and gene expression (EXP)
were obtained from 64 HCC patients 三:Result3.1 Transcriptome deregulation by DNA copy number or methylation(DNA甲基化和拷贝数变异会导致转录失调) Transcriptome deregulation by DNA copy number or methylation.png a. 分别计算DNA甲基化MET[5] 和mRNA表达的相关性(蓝色的),CNV和mRNA表达的相关系(红色的),然后发现DNA甲基化(MET)是和表达呈负相关的,而CNV和表达呈正相关(因为DNA甲基化MET相关性系数分布偏左边为-0.153,反之~) a图关注的点 b.在a图的基础上,需要找到差异显著的那些基因,然后|r|>0.5,也就是红圈圈的位置,然后发现了CNVcor有813个,METcor有321个。把这几个基因集进行求交集发现了只有24个overlap基因. ps:拿到这些基因做了一个富集分析,发现CNV差异基因富集在蛋白相关的信号通路上,MET的差异主要富集在炎症反应等上面(感觉富集到的结果可能做不出什么文章。然后继续往下看) 富集分析结果 c. CNV基因显示出了它的一个基因组偏好性,比较集中在8号染色体上。DNA甲基化的基因在全基因组上分布没有偏好性。 d.(左图) 发现DNA甲基化的基因一般都分布在inter-genic(基因间区)而不是CpG岛。(右图)发现DNA甲基化更偏向于发生在基因body区域,推测开放区域的甲基化可能会导致转录异常,芯片中CpG岛的表达方式N_shore,N_shelf等。[6] [7] e:因为已经拿到了60多个病人样本,计算每个病人样本的CNVcor上调和下调的基因个数,METcor上调和下调的个数。然后画出e的柱状图。(不同颜色代表上下调的基因)下面那个热图的意思就是说红色的上调的,蓝色的是下调的基因位点。 f:去寻找CNVcor上调和下调基因和METcor上调和下调的相关性。每个点代表着一个病人样本。横纵坐标代表这个病人的差异基因的个数,然后做了一个相关性分析。(但是这个相关性系数值不大,最大的0.86,CNV_DOWN和MET_DOWN有正相关,其他的都是弱相关了) Q:这整个一个大Figure说明了什么? A:个人认为是确定DNA甲基化和拷贝数变异适合转录组异常相关的,至于有多么相关,数据给出信息。 3.2 Molecular subtype based on CNVcor and METcor genes对于CNV和MET差异表达基因可以用于肝癌的分子分型 Identification of molecular subtypes of HCC using CNVcor and METcor genes.
[iCluster,:一种可以利用R包进行分类的分类方法,详情可以见:http://www./packages/devel/bioc/html/iClusterPlus.html] d:用K-Mean的方法画出利用icluster方法分类的这种类型的OS,TTR曲线,看看分类效果。 【我们还比较了iCl1,iCl2和iCl3亚组的临床病理特征,发现iCl1肿瘤比iCl2或iCl3的侵袭性更强(P = 0.002,表1)。 其他临床特征在亚组之间没有差异。 这些结果与分子亚型的独特侵袭性特征一致。 基于这些发现,我们建议CNVcor和METcor基因的综合分析可以识别分子亚型,每个分子亚型具有与转录失调相关的基因组和表观基因组特征的不同组合,与不同的预后结果相关。】 Q:得到了这个分类结果,相当于一个训练集,那么如何验证这个训练集的分类效果呢? 3.3 Validation of the molecular subtypes in an TCGA data setValidation of the molecular subtypes in an TCGA data set.png 这个目的就是为了在大样本库中重复他们之前结果,用的数据是TCGA的数据 b,c:寻找差异的基因,求交集,发现CNVcor基因在8号染色体进行富集和之前一致 d.e: METcor基因在open sea区域和gene body域比在CpG岛和TSS区域富集更频繁 此外,异常CNVcor和METcor基因的频率之间的相关性也得到验证,相关性0.82. f,g :分类效果,C1组DNA拷贝数和DNA甲基化畸变率最高,C3组最低 h:OS,RFS分析图 Q:发现利用CNV和DNA甲基化是可以用作分子分型的,大样本也重复出来了结果,接下来如何分析呢?如何去找DNA甲基化和拷贝数变异的关系呢? 我们接下来看看作者如何借助统计学去试图寻找答案 3.4 Coordinated aberrations of DNA copy numbers and methylation整合DNA甲基化数据和拷贝数变异数据 Coordinated aberrations of DNA copy numbers and methylation 图a,b整合了TCGA的数据和他们自己已有的数据进行分析。 在C图中,我们可以看到横坐标是CNV频率,纵坐标是MET频率,可以看出他们有显著的相关性 在图d,e,f,g中,分别以CNV gain ,CNV lose,MET gain ,MET loss进行坐标变换。然后都发现他们的之间的相关性与横纵坐标轴的变量变化无关。 (虽然不太明白它这么比的目的是啥) 3.5 Identification of genomic key features in the HCC subtypesIdentification of genomic key features in the HCC subtypes a:TCGA中肝癌的数据样本分析,剔除了同义突变后,筛选出在189个发生10次以上突变的重复突变基因,我们鉴定出37个差异突变基因,其中>5 %的突变频率在C1、C2、C3亚型之间存在差异(其中有2个肝癌样本没有基因组突变数据),发现了BAP1是C1突变的最频繁的基因。CTNB1是C2,C3当中突变最频繁的基因,而且和肿瘤的发展高度相关。 b:GeneMania软件做的图(基因间相互作用的,可以在cytocsape里面装这个插件,也可以去分析网站GeneMANIA,网址: http://),为了找到亚型的功能决定区域,利用SNU和TCGA数据交集CNVcor genes (n = 95) and METcor genes (n = 179)进行分析,发现了UBC 这个基因在CNV基因集中相关系数很高。(越靠中心说明了越重要。) c:先对这两个基因集求一下交集,找到相同的差异的上调或者下调的基因。举个例子来说:CA9是iCl1/C1肿瘤中上调表达差异最大的基因。(在文献中,CA9是缺氧的一个标志物,其过表达在HCC19中是一个不好的预后标志物。此外,与其他亚型相比,侵袭性iCl1和C1肿瘤表达了高水平的干细胞相关基因,如KRT19、EPCAM和PROM1。与Rhee, H等人.报道的CA9的表达与HCC中干细胞相关表型相关[11] [12] 的结果符合[4]。) 基于这个可能和干性[13] 有关的特性,进一步评估已知的和干性相关的基因集(即, ESC、Nanog、Oct4、Sox2、Myc1、Myc2等已知的和细胞干性相关的基因集)。在热图中,黄色代表高表达,蓝色代表低表达,发现在IC1,C1中这些干性的基因集高表达了。说明和这些差异表达的基因和肿瘤干性有关系。 (PS:肿瘤干细胞(CsC)理论认为肿瘤的发生、发展、转移和复发与CsC密切相关,对CSC的研究已成为肿瘤研究的热点。自我不断的更新复制以及保持分化的潜能是干细胞的特性。Sox2、Nanog等转录因子是维持干细胞干性的核心转录因子,那么有关于这些转录因子的表达情况是作者探究肝癌细胞是否具有干性的核心关注点。) 综上所述,这些发现提示,与DNA拷贝数和DNA甲基化相关的HCC分子亚型也与BAP1和CTNNB1突变有关,这可能在HCC亚型进展中发挥调控作用。对于分类结果来说,我们认为C1和iCl1肿瘤可能具有这些亚型的共同功能特征,如侵袭性或干性。我想知道为什么这里分析出两个突变,后面只验证了一个:因为C1是恶性程度最高的HCC,所以更关注BAP1,另外一个就不详细研究 d:展示了BAP1抑制对肝癌细胞干细胞基因表达的影响。Huh7细胞通过转染以BAP1 shrna,下调BAP1的表达,发现了包括CA9、KRT19、EPCAM、PROM1在内的stemness基因的显著上调表达。这些结果有力地支持了我们的发现,即BAP1突变可能至少在一定程度上促进了一种侵袭性HCC亚型表达。 这篇文献的主图基本上就讲到这里了。看完之后思考之前的问题: 回到之前的问题: 文献thinking: 本文首发于 ”百味科研芝士“ 微信公众号 |
|