分享

小样本多组学分析怎么发12分的Nature子刊?

 创客小组 2019-03-05

文献精读(多组学联合分析):Integrative analysis of genomic and epigenomic regulation of the transcriptome in liver cancer

文章关键词:肝癌,DNA甲基化,组蛋白修饰,转录组

 

近年来联合多组学分析已经成为表观领域的研究热点,利用单一组学数据分析致病因子的局限性愈发显著。通过多组学联合分析将有助于人们更加系统全面的认识肿瘤的生物学行为,进一步为寻找有价值的肿瘤标志物和探讨肿瘤相关机制提供新的线索。这篇NC文章聚焦在了肝癌这个肿瘤上面,看看组学分析能够得到什么有意思的发现呢?

 

一、Summary

 

作者从以转录组的数据入手,结合基因组数据和表观数据进行差异分析。看能不能找到与肝癌的发生发展密切相关的异常基因或者是通路。

主要研究思路和结论是:

1.分析64个肝癌病人样本,通过寻找DNA甲基化(MET cor)和DNA拷贝数变异(CNV cor)差异表达基因,证明了异常的MET cor和CNV cor的基因有些显著的共调控作用。

2.进一步研究,能否根据 MET cor和CNV cor进行肝癌分型,将已有的肝癌样本分为三个亚型。并且在TCGA数据库中进行验证(NMF算法)

3.筛选对HCC侵袭性影响最大的基因变异BAP1,对肿瘤的侵袭有着至关重要的作用,而且在 Huh7细胞转染实验进行验证

带着问题去思考:

1:为什么选择肝癌?

 

2:作者是怎样找到这些异常的DNA甲基化基因和拷贝数变异的基因的?

 

3:如何去证明这些基因的共调控作用呢?既然共调控,调控的机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)

 

4:是如何对肝癌进行分型的呢?分类结果如何显示呢?怎么验证?

 

5:如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)

二、Introduction

 

 

1:DNA甲基化和拷贝数变异发生在肿瘤的侵袭中

2:肝癌是重大公共卫生问题,中国尤甚;同时对于肝癌来说,基因组和表观组的异质性大,简单介绍一下今天的主角:肝细胞癌(Hepatocellularcarcinoma HCC),全球恶性癌症死因“恶名榜”第二。中国是HCC的重灾区,不仅“贡献”50%的全球HCC新发和死亡病例,且平均年龄55-59岁比国外HCC低发国家早近20[1,2,3]。

3:在之前的研究中,一些癌症相关的基因通过DNA甲基化去发挥功能作用,如 IGF2 UHRF1这些基因

4:收到DNA甲基化和拷贝数变异的影响,既然都可以影响转录,那么他们之间有没有协同作用呢?这方面的研究还不是很清楚

5:一共用了64个肝癌的CNV,MET,EXP样本信息

 

三、Result

 
3.1 Transcriptome deregulation by DNA copy number or methylation

(DNA甲基化和拷贝数变异会导致转录失调)

小样本多组学分析怎么发12分的Nature子刊?

 

 
a. 分别计算MET和mRNA表达的相关性(蓝色的),CNV和mRNA表达的相关性(红色的),然后发现DNA甲基化(MET)是和表达呈负相关的,而CNV和表达呈正相关(因为MET相关性系数分布偏左边为-0.153,反之~)
 
小样本多组学分析怎么发12分的Nature子刊?

 

b.在a图的基础上,需要找到差异显著的那些基因,然后|r|>0.5,也就是红圈圈的位置,然后发现了CNVcor有813个,METcor有321个。把这几个基因集进行求交集发现了只有24个overlap基因.

 

ps:拿到这些基因做了一个富集分析,发现CNV差异基因富集在蛋白相关的信号通路上,MET的差异主要富集在炎症反应等上面

 

小样本多组学分析怎么发12分的Nature子刊?

 

 

c. CNV基因显示出了它的一个基因组偏好性,比较集中在8号染色体上。DNA甲基化的基因在全基因组上分布没有偏好性。

d.(左图) 发现DNA甲基化的基因一般都分布在inter-genic(基因间区)而不是CpG岛。(右图)发现DNA甲基化更偏向于发生在基因body区域,推测开放区域的甲基化可能会导致转录异常,芯片中CpG岛的表达方式N_shore,N_shelf等。

e:计算每个病人样本的CNVcor上调和下调的基因个数,METcor上调和下调的个数。然后画出e的柱状图。(不同颜色代表上下调的基因)下面那个热图的意思就是说红色的上调的,蓝色的是下调的基因位点。

f:去寻找CNVcor上调和下调基因和METcor上调和下调的相关性。每个点代表着一个病人样本。横纵坐标代表这个病人的差异基因的个数,然后做了一个相关性分析。

 

Q:这整个一个大Figure说明了什么?

A:个人认为是确定DNA甲基化和拷贝数变异适合转录组异常相关的,至于有多么相关,数据给出信息。

 
3.2 Molecular subtype based on CNVcor and METcor genes

对于CNV和MET差异表达基因可以用于肝癌的分子分型

小样本多组学分析怎么发12分的Nature子刊?

 

Identification of molecular subtypes of HCC using CNVcor and METcor genes.

 

 
a,b:非负矩阵分解(Non-negative Matrix Factorization,NMF)算法

【这是无监督学习算法的一种,和k-mean,分层聚类等目的一样,为了把这些样本进行分类。感兴趣的可以看看:

https://blog.csdn.net/google19890102/article/details/51190313】对CNV和MET基因进聚类,然后得到的结果,OS 是overall survival(总体生存时间),TTR是time to tumor recurrece(肿瘤复发时间)。发现对于CNV分类来说可以把这些样本分成3类,用MET分类的话可以分成4类。而且从分类效果OS,TTR来看CNV的分类效果更好。

 

【iCluster:一种可以利用R包进行分类的分类方法,详情可以见:http://www./packages/devel/bioc/html/iClusterPlus.html

c:热图显示了iCluster分析鉴定的亚型表达模式。使用NMF聚类方法鉴定的CNVcor或METcor基因的亚型的比较,每个亚型鉴定的结果用彩色条形标记。每个亚型中CNVcorup、CNVcordown、METcorup、METcordown 基因的异常表达频率如图(最底下)所示。中间的是热图。

 

d:用K-Mean的方法画出利用icluster方法分类的这种类型的OS,TTR曲线,看看分类效果。

 

【作者比较了iCl1,iCl2和iCl3亚组的临床病理特征,发现iCl1肿瘤比iCl2或iCl3的侵袭性更强(P = 0.002,表1)。 其他临床特征在亚组之间没有差异。 这些结果与分子亚型的独特侵袭性特征一致。 基于这些发现,CNVcor和METcor基因的综合分析可以识别分子亚型,每个分子亚型具有与转录失调相关的基因组和表观基因组特征的不同组合,与不同的预后结果相关。】

 

 

Q:得到了这个分类结果,相当于一个训练集,那么如何验证这个训练集的分类效果呢?

A:利用数据库,大样本库的数据进行验证

 

3.3 Validation of the molecular subtypes in an TCGA data set
小样本多组学分析怎么发12分的Nature子刊?

 

Validation of the molecular subtypes in an TCGA data set.png

 

 

a:观察到CNV和转录组之间的相关系数的总体分布向右偏,MET左偏,

b,c:寻找差异的基因,求交集,发现CNVcor基因在8号染色体进行富集和之前一致

d.e: METcor基因在open sea区域和gene body域比在CpG岛和TSS区域富集更频繁 此外,异常CNVcor和METcor基因的频率之间的相关性也得到验证,相关性0.82.

f,g :分类效果,C1组DNA拷贝数和DNA甲基化畸变率最高,C3组最低

h:OS,RFS分析图

 

Q:发现利用CNV和DNA甲基化是可以用作分子分型的,大样本也重复出来了结果,接下来如何分析呢?如何去找DNA甲基化和拷贝数变异的关系呢?

A:我们接下来看看作者如何借助统计学去试图寻找答案

 
3.4 Coordinated aberrations of DNA copy numbers and methylation

整合DNA甲基化数据和拷贝数变异数据

 

小样本多组学分析怎么发12分的Nature子刊?

 

Coordinated aberrations of DNA copy numbers and methylation

 

图a,b整合了TCGA的数据和他们自己已有的数据进行分析。
CNV gain的频率与CNV loss的频率显著正相关(r = 0.43,P = 1.5×10-20,图4a)。 相反,MET gain的频率与MET loss的频率呈负相关。

在C图中,我们可以看到横坐标是CNV频率,纵坐标是 MET频率,可以看出他们有显著的相关性

在图d,e,f,g中,分别以CNV gain ,CNV lose,MET gain ,MET loss进行坐标变换。然后都发现他们的之间的相关性与横纵坐标轴的变量变化无关。

总之,我们认为频繁的DNA拷贝数异常的HCC患者更可能经常出现DNA甲基化异常。 异常CNVcor和METcor基因的这些相关频率可能意味着DNA拷贝数和DNA甲基化的异常之间的密切关系。

 

3.5 Identification of genomic key features in the HCC subtypes
小样本多组学分析怎么发12分的Nature子刊?

 

 

a:TCGA中肝癌的数据样本分析,剔除了同义突变后,筛选出在189个发生10次以上突变的重复突变基因,我们鉴定出37个差异突变基因,其中> 5%的突变频率在C1、C2、C3亚型之间存在差异(其中有2个肝癌样本没有基因组突变数据),发现了BAP1是C1突变的最频繁的基因。CTNB1是C2、C3当中突变最频繁的基因,而且和肿瘤的发展高度相关

 

b:GeneMania软件做的图(基因间相互作用的,可以在cytocsape里面装这个插件,也可以去分析网站GeneMANIA,网址:http://),为了找到亚型的功能决定区域,利用SNU和TCGA数据交集CNVcor genes (n = 95) and METcor genes (n = 179)进行分析,发现了UBC 这个基因在CNV基因集中相关系数很高。(越靠中心说明了越重要)

 

c:先对这两个基因集求一下交集,找到相同的差异的上调或者下调的基因。举个例子来说:CA9是iCl1/C1肿瘤中上调表达差异最大的基因。(CA9是缺氧的一个标志物,其过表达在HCC中是一个不好的预后标志物。此外,与其他亚型相比,侵袭性iCl1和C1肿瘤表达了高水平的干细胞相关基因,如KRT19、EPCAM和PROM1。与Rhee, H等人报道的CA9的表达与HCC中干细胞相关表型相关的结果相符[4]。)

 

基于这个可能和干性有关的特性,进一步评估已知的和干性相关的基因集(即ESC、Nanog、Oct4、Sox2、Myc1、Myc2等已知的和细胞干性相关基因集)。在热图中,黄色代表高表达,蓝色代表低表达,发现在IC1,C1中这些干性的基因集高表达了。说明和这些差异表达的基因和肿瘤干性有关系。

作者这次分类结果与之前定义HCC亚型分子分型的研究进行了比较。发现二者overlap。这也意味着这些以前的分类的表达可能与CNVcor和METcor基因畸变的频率有关。

(PS:肿瘤干细胞(CsC)理论认为肿瘤的发生、发展、转移和复发与CsC密切相关,对CSC的研究已成为肿瘤研究的热点。自我不断的更新复制以及保持分化的潜能是干细胞的特性。Sox2、Nanog等转录因子是维持干细胞干性的核心转录因子,那么有关于这些转录因子的表达情况是作者探究肝癌细胞是否具有干性的核心关注点。)

综上所述,这些发现提示,与DNA拷贝数和DNA甲基化相关的HCC分子亚型也与BAP1和CTNNB1突变有关,这可能在HCC亚型进展中发挥调控作用。对于分类结果来说,我们认为C1和iCl1肿瘤可能具有这些亚型的共同功能特征,如侵袭性或干性。我想知道为什么这里分析出两个突变,后面只验证了一个:因为C1是恶性程度最高的HCC,所以更关注BAP1,另外一个就不详细研究。

 

d:展示了BAP1抑制对肝癌细胞干细胞基因表达的影响。Huh7细胞通过转染以BAP1 shrna,下调BAP1的表达,发现了包括CA9、KRT19、EPCAM、PROM1在内的stemness基因的显著上调表达。这些结果有力地支持了我们的发现,即BAP1突变可能至少在一定程度上促进了一种侵袭性HCC亚型表达。

 

这篇文献的主图基本上就讲到这里了。看完之后思考之前的问题:

 

1:为什么选择肝癌?

因为肝癌在全球的发病率死亡率非常靠前,而且CNV和MET异质性比较大。研究既有实际意义又有可行性。

2:作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
通过表达谱,找到差异位点进行分析。同时通过TCGA的样本分析,也找到很多这种差异表达基因。

 

3:如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
通过寻找相关性,画线形图,找到相关性系数最大的进行比较。总体来说,通过自己的
64个肺癌样本+TCGA数据库验证,证明了CNVcor和METcor基因的频率之间的相关性。

4:对肝癌进行分型是如何分的?分类结果如何显示呢?
利用了非负矩阵分解,对CNVcor和METcor的基因进行分类得到结果C1,C2,C3。并且比较了这几类的总体生存率和转移率。

5:如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)
通过找到基因的突变频率,然后发现了BAP1这个基因在C1里面突变的频率是最多的,然后CTNB1在C3里面突变频率更高。(ps:通过求两个基因集的overlap进行热图分析,可以发现一些和干性相关的基因,并且进了实验验证)

文献thinking:
1:首先样本的数量60多对,感觉不是很多。
而且作者在文章中也承认样本量的问题会造成结果的偏差。
(虽然TCGA数据库验证可以部分找补)

2:关于基因组分布的偏好性,作者并没有给出一个合理的解释。可以多往这个方面多挖掘一些信息

3:还有一些点可以深挖掘,比如说找到了一下表达差异相关的基因,那么这些基因在表观上有没有其他的作用,(虽然有讨论Bap1和H3K27me3的关系),比如说是不是和组蛋白修饰或者是ncRNA有关?

 

4:找到的这些significant基因当诊断的marker是否可行(或者治疗靶点)?

5:DNA甲基化和CNV的相关性问题,既然找到了CNV_DOWN和MET_DOWN有正相关,图一f中,是不是可以继续挖下去呢?进一步解释一下DNA甲基化和CNV之间的是如何影响的呢?毕竟文章只是说存在相关性。

 

参考文献

原文链接:https://www.ncbi.nlm./pubmed/29018224

1:Torre LA, Bray F, Siegel RL, Ferlay J, Lortet‐Tieulent J, Jemal A. Global cancer statistics, 2012. CA Cancer J Clin. 2015;65:87‐108.

2:Hindupur SK, Colombi M, Fuhs SR, et al. The protein histidine phosphatase LHPP is a tumour suppressor. Nature 2018, 555, 678‐682.

3:MALEK NP, SCHMIDT S, HUBER P, et al. The diagnosis and treatment of hepatocellular carcinoma[J]. Dtsch Arztebl Int, 2014, 111(7): 101-106. DOI:10.3238/arztebl.2014.0101.

4: Rhee, H. et al. Poor outcome of hepatocellular carcinoma with stemness marker under hypoxia: resistance to transarterial chemoembolization. Mod. Pathol. 29,1038–1049 (2016)

 

排版:小丸子

文章来源于:sci666 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多