分享

文献精读(多组学联合分析):小样本多组学分析怎么发12分的Nature子刊?

 百味科研芝士 2019-04-13

Integrative analysis of genomic and epigenomic regulation of the transcriptome in liver cancer

文章关键词:肝癌,DNA甲基化,组蛋白修饰,转录组

近年来联合多组学分析已经成为表观领域的研究热点,利用单一组学数据分析致病因子的局限性愈发显著。通过对多种层次和来源的高通量组学数据的整合分析,系统地研究临床发病机理、确定最佳疾病靶点已经成为精准医学研究的重要发展方向

多组学联合分析将有助于人们更加系统全面的认识肿瘤的生物学行为,进一步为寻找有价值的肿瘤标志物和探讨肿瘤相关机制提供新的线索。今年来多组学在肺癌,胃癌等癌症的研究当中取得了不错的研究进展随着组学分析技术的不断发展,整合基因组,表观组,转录组等组学分析,可以多层级全面的了解肿瘤的发生发展机制。这篇NC文章聚焦在了肝癌这个肿瘤上面,看看组学分析能够得到什么有意思的发现呢?

简单介绍一下今天的主角:HCC,肝细胞癌(Hepatocellular carcinoma HCC)是常见的恶性肿瘤类型之一,在全球癌症死亡原因中排名第二,大约90%的原发肝癌都属于肝细胞癌。中国是HCC患病率最高的地区,每年约50%以上的新诊断和死亡的病例都发生在中国,并且我国被诊断为肝癌的患者平均年龄为55-59岁,比国外肝癌低发率国家要早近20[1,2,3]肝细胞癌(Hepatocellular carcinomaHCC),全球恶性癌症死因恶名榜第二。中国是HCC的重灾区,不仅贡献50%的全球HCC新发和死亡病例,且平均年龄55-59岁比国外HCC低发国家早近20年。

一:Summary

  作者从以转录组的数据入手,结合基因组数据和表观数据进行差异分析。看能不能找到与肝癌的发生发展密切相关的异常基因或者是通路。

这篇文章主要关注)肝癌转录组基因和表观遗传的差异[1] [2] 

主要研究思路是:1.分析64个肝癌病人样本中,DNA甲基化(METcor)和DNA拷贝数变异(CNVcor,探究两者是否在肝癌发病上存在“共调控”作用(这里增加用到的技术手段,如富集分析、热图分析,下面亦然,读者一开始看到这里会介绍不同工具的实际应用才有继续读下去的欲望,反正我是这个样子的

2.进一步研究能否根据 MET cor和CNV cor进行肝癌分型,在TCGA数据库中进行验证(NMF算法)

3.筛选对HCC侵袭性影响最大的基因变异BAP1,用Huh7细胞转染实验进行验证.
In this paper abstract, the author give
s these results:
  1:
The frequencies of the aberrancies of the DNA copy-number-correlated (CNV cor)expression genes and the methylation-correlated expression(METcor) genes are co-regulated significantly.
  (
异常的METCNV的基因有些显著的共调控作用)

  2:Multi-omics integration of the CNVcor and METcor genes reveal three prognostic subtypes of hepatocellular cacinoma. which can be validated by an independent data.
  
(多组学整合分析异常的CNV/DNA甲基化相关基因揭示了肝癌的三个亚型,并且得到了独立数据的验证)

  3:The most aggressive subtype expression stemness genes has frequent BAP1 mutations, implying its pivotal role in the aggressive tumorprogression.
  
(在三个亚型中侵袭性最高的亚型中发现BAP1基因突变,对肿瘤的侵袭有着至关重要的作用)

带着问题去思考:
1:Why they choose HCC?
为什么选择肝癌?
2:How to find the high correlation between CNVcor and DNAcor?
作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
3:How to prove this correlation mechanism?
如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
4:How to classify the carcinoma subtype? and how to show the result?
对肝癌进行分型是如何分的?分类结果如何显示呢?怎么验证我的结果(毕竟自己的样本量很小)
5:How to find the most significant gene which has the pivotal role in tumor aggression?
如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)既然我根据变异进行了分型,那么在这当中贡献最大是哪个基因,怎么筛选


二:Introduction

1:DNA methylation and CNV aberrationor mutation occur in cancer progression.
(DNA
甲基化和拷贝数变异发生在肿瘤的侵袭中)

2:As HCC, genomic profiling studies demonstrated the enormous heterogeneity of genomic and epigenomicderegulation.
(
肝癌是重大公共卫生问题,中国尤甚;同时对于肝癌来说,基因组和表观组的异质性大)

3:In previous study, several key cancer-related gene such as IGF2 UHRF1 regulation function by DNA methylation
(在之前的研究中,一些癌症相关的基因通过DNA甲基化去发挥功能作用
,如 IGF2 UHRF1这些基因)

4:The transcription has influenced by the CNV and DNA methylation , whether it has co-correlation is unclear .
(
转录DNA甲基化和拷贝数变异的影响,既然都可以影响转录,那么他们之间有没有协同作用呢?这方面的研究还不是很清楚)

5:Genomic and epigenomic profiles of DNA copy-number variation (CNV), DNA methylation (MET), and gene expression (EXP) were obtained from 64 HCC patients
(一共用了64个
肝癌的CNV,MET,EXP样本信息)[3] [4] 


三:Result

3.1 Transcriptome deregulation by DNA copy number or methylation

(DNA甲基化和拷贝数变异会导致转录失调)

IMG_256

Transcriptome deregulation by DNA copy number or methylation.png

a. 分别计算DNA甲基化MET[5] 和mRNA表达的相关性(蓝色的),CNV和mRNA表达的相关系(红色的),然后发现DNA甲基化MET是和表达呈负相关的,而CNV和表达呈正相关(因为DNA甲基化MET相关性系数分布偏左边为-0.153,反之~)

IMG_257

a图关注的点

b.在a图的基础上,需要找到差异显著的那些基因,然后|r|>0.5,也就是红圈圈的位置,然后发现了CNVcor有813个,METcor有321个。把这几个基因集进行求交集发现了只有24个overlap基因.


ps:拿到这些基因做了一个富集分析,发现CNV差异基因富集在蛋白相关的信号通路上,MET的差异主要富集在炎症反应等上面(感觉富集到的结果可能做不出什么文章。然后继续往下看)

IMG_258

富集分析结果


c. CNV基因显示出了它的一个基因组偏好性,比较集中在8号染色体上。DNA甲基化的基因在全基因组上分布没有偏好性

d.(左图) 发现DNA甲基化的基因一般都分布在inter-genic(基因间区)而不是CpG岛。(右图)发现DNA甲基化更偏向于发生在基因body区域,推测开放区域的甲基化可能会导致转录异常,芯片中CpG岛的表达方式N_shore,N_shelf等[6] [7] 

e:因为已经拿到了60多个病人样本,计算每个病人样本的CNVcor上调和下调的基因个数,METcor上调和下调的个数。然后画出e的柱状图。(不同颜色代表上下调的基因)下面那个热图的意思就是说红色的上调的,蓝色的是下调的基因位点。

f:去寻找CNVcor上调和下调基因和METcor上调和下调的相关性。每个点代表着一个病人样本。横纵坐标代表这个病人的差异基因的个数,然后做了一个相关性分析。(但是这个相关性系数值不大,最大的0.86,CNV_DOWN和MET_DOWN有正相关,其他的都是弱相关了)

Q:这整个一个大Figure说明了什么?

A:个人认为是确定DNA甲基化和拷贝数变异适合转录组异常相关的,至于有多么相关,数据给出信息。

3.2 Molecular subtype based on CNVcor and METcor genes

对于CNV和MET差异表达基因可以用于肝癌的分子分型

IMG_259

Identification of molecular subtypes of HCC using CNVcor and METcor genes.


a
,b:非负矩阵分解(Non-negative Matrix Factorization,NMF)算法【这是无监督学习算法的一种,和k-mean,分层聚类等目的一样,为了把这些样本进行分类。感兴趣的可以看看https://blog.csdn.net/google19890102/article/details/51190313】对CNV和MET基因进聚类,然后得到的结果,OS 是overall survival(总体生存时间),TTR是time to tumor recurrence(肿瘤复发时间)。发现对于CNV分类来说可以把这些样本分成3类,用MET分类的话可以分成4类。而且从分类效果OS,TTR来看CNV的分类效果更好。

[iCluster,:一种可以利用R包进行分类的分类方法,详情可以见:http://www./packages/devel/bioc/html/iClusterPlus.html]
c:
热图显示了iCluster分析鉴定的亚型表达模式。使用NMF聚类方法鉴定的CNVcor或METcor基因的亚型的比较,每个亚型鉴定的结果用彩色条形标记。每个亚型中CNVcor-up、CNVcor-down、METcor-up、METcor-down基因的异常表达频率如图(最底下)所示。中间的是热图。

d:用K-Mean的方法画出利用icluster方法分类的这种类型的OS,TTR曲线,看看分类效果。


【我们还比较了iCl1,iCl2和iCl3亚组的临床病理特征,发现iCl1肿瘤比iCl2或iCl3的侵袭性更强(P = 0.002,表1)。 其他临床特征在亚组之间没有差异。 这些结果与分子亚型的独特侵袭性特征一致。 基于这些发现,我们建议CNVcor和METcor基因的综合分析可以识别分子亚型,每个分子亚型具有与转录失调相关的基因组和表观基因组特征的不同组合,与不同的预后结果相关。】

Q:得到了这个分类结果,相当于一个训练集,那么如何验证这个训练集的分类效果呢?
A:利用数据库,大样本库的数据进行验证

3.3 Validation of the molecular subtypes in an TCGA data set

IMG_260

Validation of the molecular subtypes in an TCGA data set.png

这个目的就是为了在大样本库中重复他们之前结果,用的数据是TCGA的数据
a:观察到CNV和转录组之间的相关系数的总体分布向右偏,MET左偏,

b,c:寻找差异的基因,求交集,发现CNVcor基因在8号染色体进行富集和之前一致

d.e: METcor基因在open sea区域和gene body域比在CpG岛和TSS区域富集更频繁 此外,异常CNVcor和METcor基因的频率之间的相关性也得到验证,相关性0.82.

f,g :分类效果,C1组DNA拷贝数和DNA甲基化畸变率最高,C3组最低

h:OS,RFS分析图

Q:发现利用CNV和DNA甲基化是可以用作分子分型的,大样本也重复出来了结果,接下来如何分析呢?如何去找DNA甲基化和拷贝数变异的关系呢?

我们接下来看看作者如何借助统计学去试图寻找答案

3.4 Coordinated aberrations of DNA copy numbers and methylation

整合DNA甲基化数据和拷贝数变异数据

IMG_261

Coordinated aberrations of DNA copy numbers and methylation

a,b整合了TCGA的数据和他们自己已有的数据进行分析。
CNVgain的频率与CNVloss的频率显
著正相关(r = 0.43,P = 1.5×10-20,图4a)。 相反,MET gain的频率与MET loss的频率呈负相关。

C图中,我们可以看到横坐标是CNV频率,纵坐标是MET频率,可以看出他们有显著的相关性

在图d,e,f,g中,分别以CNV gain ,CNV loseMET gain ,MET loss进行坐标变换。然后都发现他们的之间的相关性与横纵坐标轴的变量变化无关。

(虽然不太明白它这么比的目的是啥)
[8]    总之,我们认为频繁的DNA拷贝数异常的HCC患者更可能经常出现DNA甲基化异常。 异常CNVcor和METcor基因的这些相关频率可能意味着DNA拷贝数和DNA甲基化的异常之间的密切关系。[9] [10] 

3.5 Identification of genomic key features in the HCC subtypes

IMG_262

Identification of genomic key features in the HCC subtypes

a:TCGA中肝癌的数据样本分析,剔除了同义突变后,筛选出在189个发生10次以上突变的重复突变基因,我们鉴定出37个差异突变基因,其中>5 %的突变频率在C1、C2、C3亚型之间存在差异(其中有2个肝癌样本没有基因组突变数据),发现了BAP1是C1突变的最频繁的基因。CTNB1是C2,C3当中突变最频繁的基因,而且和肿瘤的发展高度相关

b:GeneMania软件做的图(基因间相互作用的,可以在cytocsape里面装这个插件,也可以去分析网站GeneMANIA,网址: http://),为了找到亚型的功能决定区域,利用SNU和TCGA数据交集CNVcor genes (n = 95) and METcor genes (n = 179)进行分析,发现了UBC 这个基因在CNV基因集中相关系数很高。(越靠中心说明了越重要。)

c:先对这两个基因集求一下交集,找到相同的差异的上调或者下调的基因。举个例子来说:CA9是iCl1/C1肿瘤中上调表达差异最大的基因。(在文献中,CA9是缺氧的一个标志物,其过表达在HCC19中是一个不好的预后标志物。此外,与其他亚型相比,侵袭性iCl1和C1肿瘤表达了高水平的干细胞相关基因,如KRT19、EPCAM和PROM1。Rhee, H等人.报道CA9的表达与HCC中干细胞相关表型相关[11] [12] 的结果符合[4]。)

  基于这个可能和干性[13] 有关的特性,进一步评估已知的和干性相关的基因集(即, ESC、Nanog、Oct4、Sox2、Myc1、Myc2等已知的和细胞干性相关基因集)。在热图中,黄色代表高表达,蓝色代表低表达,发现在IC1,C1中这些干性的基因集高表达了。说明和这些差异表达的基因和肿瘤干性有关系。
  我们还将我们的分类与之前定义HCC亚型分子
分型分类器的研究进行了比较。Kim_65 genes (34 out of 65), Yamashita_EpCam_DOWN (7 out of 18), Woo_CLHCC_DOWN (203 out of 374), and Boyault_G123_DOWN (26 out of 50) 展现出来和筛选出来差异基因有overlap。这也意味着这些以前的分类的表达可能与CNVcor和METcor基因畸变的频率有关。

PS:肿瘤干细胞(CsC)理论认为肿瘤的发生、发展、转移和复发与CsC密切相关,CSC的研究已成为肿瘤研究的热点。自我不断的更新复制以及保持分化的潜能是干细胞的特性。Sox2Nanog转录因子是维持干细胞干性的核心转录因子,那么有关于这些转录因子的表达情况是作者探究肝癌细胞是否具有干性的核心关注点。

  综上所述,这些发现提示,与DNA拷贝数和DNA甲基化相关的HCC分子亚型也与BAP1和CTNNB1突变有关,这可能在HCC亚型进展中发挥调控作用。对于分类结果来说,我们认为C1和iCl1肿瘤可能具有这些亚型的共同功能特征,如侵袭性或干性。我想知道为什么这里分析出两个突变,后面只验证了一个因为C1是恶性程度最高的HCC,所以更关注BAP1,另外一个就不详细研究

d:展示了BAP1抑制对肝癌细胞干细胞基因表达的影响。Huh7细胞通过转染以BAP1 shrna,下调BAP1的表达,发现了包括CA9、KRT19、EPCAM、PROM1在内的stemness基因的显著上调表达。这些结果有力地支持了我们的发现,即BAP1突变可能至少在一定程度上促进了一种侵袭性HCC亚型表达。


这篇文献的主图基本上就讲到这里了。看完之后思考之前的问题:

回到之前的问题:
1:Why they choose HCC?
为什么选择肝癌?
因为肝癌在全球的发病率死亡率非常靠前,而且CNV和MET异质性比较大研究有实际意义又有可行性
2:How to find the
varient and high correlation CNVcor and DNAcor?
作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
通过表达谱,找到|r|>0.5的那些位点,进行分析。同时通过TCGA的样本分析,也找到很多这种差异表达基因。
3:How to prove this correlation mechanism?
如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
通过寻找相关性,画线形图,找到相关性系数最大的进行比较。总体来说,通过自己的64个肺癌样本+TCGA数据库验证,证明了CNVcor和METcor基因的频率之间的相关性。
4:How to classcify the carcinoma subtype? and how to show the result?
对肝癌进行分型是如何分的?分类结果如何显示呢?
利用了非负矩阵分解,对CNVcor和METcor的基因进行分类得到结果C1,C2,C3。并且比较了这几类的总体生存率和转移率。
5:How to find the most significant gene which has the pivotal role in tumor aggression?
如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)
通过找到基因的突变频率,然后发现了BAP1这个基因在C1里面突变的频率是最多的,然后CTNB1在C3里面突变频率更高。(ps:通过求两个基因集的overlap进行热图分析,可以发现一些和干性相关的基因,并且进了实验验证)


文献thinking:
1:首先样本的数量60多对,感觉不是很多。
而且作者在文章中也承认样本量的问题会造成结果的偏差。虽然TCGA数据库验证可以部分找补)
2
:对于采取聚类的方式,用icluster这个是当reference吗?目的没太明白
3:还有一些点可以深挖掘,比如说找到了一下表达差异相关的基因,那么这些基因在表观上有没有其他的作用,
虽然有讨论Bap1H3K27me3的关系比如说是不是还有其他组蛋白修饰或者是ncRNA有关?
4:
找到的这些significant基因当诊断的marker是否可行(或者治疗靶点)
5:DNA甲基化和CNV的相关性问题,既然找到了CNV_DOWN和MET_DOWN有正相关,图一f中,是不是可以继续挖下去呢?进一步解释一下DNA甲基化和CNV之间的是如何影响的呢?毕竟文章只是说存在相关性。

本文首发于 ”百味科研芝士“ 微信公众号

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多