分享

微卫星不稳定性在多种癌症中的分子肖像

 生物_医药_科研 2018-12-15

在本研究中,研究组利用来自癌症基因组图谱(TCGA)的数据分析了约8000个外显子组和约1000个跨越23种肿瘤的全基因组MSI状态和特征。研究人员系统地分析了细胞核和线粒体DNAMSI突变的模式表征受影响的途径,最终发现与表观基因组特征的关联。 这些分析揭示了具有不同程度的癌症类型特异性的携带移码突变MSI的新基因,并且产生迄今为止最大的编码和非编码频繁改变人类癌症MS位点该组通过全基因组测序揭示基因组的非编码部分中的基因座。最后,该项研究还建立了基于外显子组数据描述高精度的MSI-H状态预测模型。

文章题目:A molecular portrait of microsatelliteinstability across multiple cancers

研究人员:Isidro Cortes-Ciriano,Sejoon Lee, et al.

发表时间:2017. 06

期刊名称:Nature Communications

影响因子:12.124


研究背景

微卫星(MS)是短的DNA串联重复序列,在人类基因组中含量丰富。因为其突变率高,所以被广泛用作人体遗传学和法医学中的多态性标记。微卫星不稳定性(MSI)是由DNA错配修复机制(MMR)受损所导致的,其特征在于DNA聚合酶滑移以及单核苷酸变异(SNV)频率升高引起MS重复序列的长度广泛多态性。 MSI在个别病例中是由于体细胞突变使MMR基因(例如MLH1,MSH2,MSH3,MSH6PMS2)失活所导致的,对于遗传性非息肉病性结直肠癌(即Lynch综合征)患者而言,癌症的风险增加。 MSI也能通过MLH1启动子的超甲基化,MSH2的表观遗传性失活或MMR基因使miRNA下调来发生。而编码区内MSI的发生则通过改变阅读框或转录来获得短的且功能受损的蛋白质。 

二十多年前有推测,MSI肿瘤的侵袭性较差是由于它们体细胞突变的发生率高,从而可能产生诱导抗肿瘤免疫应答的突变基因。 实际上,在黑色素瘤和肺部肿瘤中,较高的突变负担已经与抗CTLA-4和抗PD-1治疗反应速率的增加有关,这是由于更高的新抗原负担诱导抗肿瘤免疫反应。有报告显示,MMR缺陷导致结直肠癌的患者通过PD-1免疫检查点阻断具有良好的反应。 尽管MSI的突变表型与患者对免疫疗法反应之间的确切联系仍有待阐明,但对于准确识别具有超突变表型及其基因组表征的患者具有重要的治疗意义。

研究方法

1. 数据集

a. 从TCGA中获取外显子和全基因组肿瘤-正常样本,使用BWA将长度为100bp左右的reads匹配到hg19参考基因组。

b. MSI(MSI-H,MSI-L和MSS)从gdac网站下载(https://gdac.),而 MLH1启动子的甲基化状态,基因表达和DNA拷贝数变异数据从基因组学数据共享门户网站下载(https://gdc-portal.nci.nih.gov/)。

c. 使用一组四个单核苷酸重复(BAT25,BAT26,BAT40和TGFBRII)和三个二核苷酸重复(D2S123,D5S346和D17S250)评估COAD,READ,ESCA,STAD和UCEC肿瘤的MSI状态,使用五个单核苷酸标记(BAT25,BAT26,NR21,NR24和MONO27)评估的COAD/READ基因组子集。

注:肿瘤被分为MSI-H(>40 %的标志物改变),MSI-L(<>

2. 定义MS重复的引用集

a. 利用Sputnik算法对39,496个RefSeq基因(USCS Genome Browser,hg19)的mRNA序列中的MS基因座进行鉴定。研究人员将分析长度限制在大小为6-60bp的单、二、三和四核苷酸MS基因座上,通过使用100bp reads 的侧翼序列检测得到可靠结果。外显子MS位点的最终参考集包含386,396个基因座。

b. 利用Sputnik算法共获得19,039,443个MS重复序列(染色体1至Y),并将其分为5组。并使用该算法从hg19线粒体DNA(mtDNA)中构建线粒体MS基因座的参考集。。

3. DNA滑移事件的检测

a. 在过滤掉比对质量低的reads之后,采用与鉴定参考MS重复相同的方法来鉴定intra-reads MS重复,并与参照MS重复相交(intersecte)(检测到的内读MS重复的最小长度为5bp)。

b. 设定intra-reads MS重复长度为2bp的侧翼序列(5’和3’)与相匹配的参照重复来打断截短的MS重复序列。在每个基因组中,每个MS基因座的等位基因重复长度的分布是由比对到该基因座的所有intra-reads MS重复的长度来获得。

c. 使用Kolmogorov-Smirnov统计量比较每个基因座的肿瘤-正常基因组MS长度的分布(最少5个肿瘤和5个匹配的正常读数)。

注:p<>

d. 根据(i)正常样本reads长度的分布模式(ii)肿瘤样本的reads长度的分布模式(iii)分布的第二个最频繁的读段长度来规定MSI发生的数量:每个样本的MSI计数的绝对值;样本百分比:在特定的MS位点处对来自给定癌症携带MSI事件的样本百分比。

4. 突变识别

a. 利用MuTect 1.1.4 识别肿瘤样本和正常全基因组样本中的体细胞突变,使用COSMIC v68和dbSNP135分别作为已知体细胞和胚系突变的参考集。

b. 为了确保MuTect报道的变异体系的体细胞来源的可靠性,滤除了来自千人基因组计划的种系突变。从GDAC(https://gdac.)网站下载7,919个外显子组的体细胞突变。最后利用HaplotypeCaller 3.4-46-gbc02625检查种系突变。

5. 基因表达与MMR改变的相关性

a. 为了研究7种MMR基因(MLH1MLH3MSH2MSH3MSH6PMS1PMS2)和两种校正DNA聚合酶(POLD1POLE)的表达水平与基因组事件之间的关联,对186个MSI-H病例的基因表达、启动子甲基化以及DNA拷贝数的概况进行分析。

b. 基因表达谱首先进行对数转换。 随后,每行和列的表达值以中值为中心并重新调整,使得每行每列的表达值的平方和为1。

c. 为了处理启动子甲基化数据,研究人员在从两种甲基化芯片里收集了相对应的9个基因的17个探针。(注:对17个探针求平均值获得β值,在β值为40.3的样品中,MLH1启动子被认为是甲基化的。)

d. 为了获得拷贝数数据,研究人员选择过滤掉胚系改变的片段文件。将与8个基因的基因组区段重叠的Log2拷贝数视为这些基因的拷贝数(POLE被忽略)。

e. 用皮尔森相关法评价基因表达与启动子甲基化(β值)的关系,以及基因表达与DNA拷贝数的关系。基因表达与体细胞突变和MSI事件之间的关系,用Mann-Whitney检验(a=0.05)进行评估。

6. 表观基因组功能分析

a. 依据12个标记(H3K4me1,H3K4me2,H3K4me3,H3K9ac,H3K27ac,H4K20me1,H3K79me2,H3K36me3,H3K9me3,H3K27me3,H2A.Z和DNase)下载了来自Epigenome的127个参考表观基因组的25种染色质状态图的坐标。

b. 选择具有最高MSI计数的30个全基因组,将其MSI基因座的列表与使用来自与肿瘤类型相同解剖位置的细胞系定义的染色质状态图相交。将相同的过程应用于来自全基因组参考集的MS位点组。Fisher精确检验用于评估每种癌症基因组中每种染色质状态的MSI事件富集的显著性(显著性水平设定为0.05)。

7. MSI状态预测

a. 使用随机森林模型来建立预测MSI状态的二元分类器。每个肿瘤用一个载体进行编码,在7,863个基因中该载体至少记录一个MSI事件的数目和是否存在MSI事件的样本。

b. 使用R包中的nearZeroVar函数将学习示例中方差接近零的特征全部删除(即接近零的方差描述符)。

c. 剩余的描述符以均值零为中心并缩放到单位差异,使用来自同一函数的PreProcess来获得z分数。 树的数量被设置为100,参数mtry的最优值通过10倍交叉验证被确定为182并且其他参数为默认值。

d. 为了估算预测误差,使用了R包中的pipeline。采用交叉验证对每个类别(即MSI-H和MSS)定义一个Mondrian列表,按递增顺序对每个训练示例中该类别的比例进行排序。

e. 将所有学习实例训练的模型应用于没有MSI分类的样本,并计算每种情况下森林模型中每个类的树的分数。再这些值与相应的Mondrian列表相交。 

f. 对于每个样本,给定类别的P值被计算为相应Mondrian 类列表中的元素数量,高于该类的投票分数除以该列表中的元素数量。如果给定类别的P值高于显著性水平e,则预测样本属于该类别。 

研究成果

1.MSI在癌症基因组中的外显子组概况

研究人员分析了23种癌症的7919个肿瘤-正常样本对的TCGA外显子测序数据(表1)。 在39,496个RefSeq mRNA序列中鉴定出3 86,396个微卫星重复序列,并且在外显子组数据中测试了MS区域是否存在MSI(图1a)。

a. 首先通过基于毛细管测序的片段长度测定,根据TCGA确定了5种癌症类型(COAD:结肠腺癌,ESCA:食管癌,READ:直肠腺癌,STAD:胃腺癌和UCEC:子宫体内子宫内膜癌),这五种肿瘤类型已被认为是MSI多发性的。 图1b显示了这5种肿瘤类型中190个MSI-H病例的MSI丰度(图2a)。分析证实,MSI突变表现为连续型而不是二分型。 该图还显示了MSI-H病例和不同癌症类型的MSI事件数量的明显变化,表明MSI的基因组影响中存在大量的肿瘤内和肿瘤间异质性。

b. 研究组使用MutSigCV鉴定了复发性MSI事件的基因。在补充图3中显示了编码MSI(假发现率(FDR)≥0.05)显著富集的基因及其在三种肿瘤类型中的显著水平。途径分析显示跨膜/TGFb,细胞应激反应/DNA损伤和染色体/Mphase相关分子功能,在COAD、STAD和UCEC病例中分别显著富集MSI复发性基因(P=0.01)。

图1  MSI呼叫管道的原理图概述

2. DNA修复途径的突变景观

a. 图1b为MLH1MLH3MSH2MSH3MSH6PMS1PMS2POLEPOLD1PRKDCAPCBRAF的有害突变。在这些基因中,MSI移码突变是MSH3MSH6失活的主要原因。而有害的SNV频繁地突变导致POLD1POLE功能丧失。

b. 研究组检查了MSI易发性肿瘤中移码MSI事件的模式。选择了151个基因,其中包含DNA修复途径、非同源末端连接(NHEJ)、同源重组(HR)、碱基切除(BER)、RecQ helicase-like(RECQ)、跨损伤合成(TLS),以及共济失调毛细血管扩张突变(ATM)。 该研究发现包含大量MSI的COAD样本(样本中4500个)富含MLH1启动子高甲基化(图1b)。最常被MSI靶向的基因是RAD50(MSI-H肿瘤的16%),ATR(15%)和RBBP8(10%)。

c. 该项目针对MSI-H病例中种系突变的影响进行研究。研究人员观察到4个COAD(9%),4个UCEC(5%)和2个STAD(3%)患者在MMR基因中存在有害的种系突变。至少5名患者可能由于MMR基因的双等位基因失活而获得MSI-H表型,其中MMR基因的遗传种系突变与对应基因的体细胞获得性突变互补。总体而言,与MSS病例相比,MMR基因,POLEPOLD1中的种系突变在MSI-H患者中始终更为普遍(图1c)。

d. 虽然很难确定启动MMR缺陷的基因组,除了MLH1的高甲基化之外,各种MMR基因的截短突变都可能促使MSI-H基因组形成,从而导致DNA修复途径的突变进一步积累。为了研究体细胞MMR基因改变对下游和校正DNA聚合酶的影响,研究人员检测了基因表达与启动子甲基化,DNA拷贝数,体细胞SNV和插入以及MSI发生之间的相关性。对于MLH1,只有DNA甲基化水平与基因表达水平相关(r= -0.79; Pearson相关性)。对于其他基因,未观察到启动子甲基化和基因表达之间的明显关系。

e. 除MLH1以外,研究结果显示与基因表达相关的最常见的基因组事件(P=0.05;Mann-Whitney检验)是截短的SNV和移码MSI事件(MLH3,MSH2,MSH3,MSH6,PMS1POLD1),表明这些体细胞事件是造成这些基因表达不足的原因。MMR突变是否具有单倍计量不足(即杂合子MMR突变具有功能作用),需要进一步的调查来确定,单等位基因截短突变相关的MMR基因的低表达是否会导致其功能性失活依旧存在争议。观察MSH2和POLD1的DNA拷贝数与基因表达之间的相关性(r>0.2; Pearson相关性)。并没有发现基因表达和种系截断突变之间有任何显著关联。


图2  MSI反复改变的MS位点

3. 移码MSI靶向位点的癌症类型特异性

研究人员调查了MSI多发肿瘤中130个与癌症相关基因的移码MSI的频率。移码突变MSI类型肿瘤的特异性确定了一些已知的MSI靶标:ACVR2A(52%的MSI-H肿瘤)和TGFBR2(44%)COADSTAD均富集(31%),RNF43(31%),MLL3(27%),PRDM2(21%),JAK1(16%)和APC(3%)。

a.为了揭示移码MSI频繁发生在其他MS位点,首先根据COAD,STAD和UCEC的MSI-H肿瘤中移码突变的MSI事件的复发水平对MS位点进行排序。该分析跨越了4,898个基因的6,441个编码MS基因座的16,412个移码MSI事件(图2a)。移码MSI事件常出现在ACVR2A(51.6%),KIAA2018(51%),SLC22A9(50%),ASTE1(45%),TGFBR2(44%),NDUFC2(36%),LTN1 ( 36%)和SEC31A(36%)中。移码MSI事件往往表现出显著的肿瘤特异性,在低频MSI事件中,SMAP1,CCDC168SPINK5在COAD和UCEC中存在移码突变,但在STAD肿瘤中不存在移码突变。

b.通过分析非编码区中MSI事件的频率,研究人员发现在3'UTR区域内的MS位点C18orf56,C14orf169,FOXP1,UGDH,RNF19B,PUS3FAM60A以及5'UTR区域内的MS位点STC1,RBMXL1,RFX1,BEX5SLC6A15在MSI-H中频繁发生改变(图2b,c)。其他MS基因座显示出明显的癌症类型特异性。COAD,STAD和UCEC中移码,3'和5'UTR MSI的丰富性。

c. 接下来将该项研究的分析扩展到所有的外显子组。研究人员观察到8,011MS基因座中移码MSI事件,其中51个在超过50个样本中被改变。ACVR2ATGFBR2KIAA2018ASTE1SLC22A9通常在STADCOAD中存在MSI,而其他几种基因大多只在一种肿瘤类型中存在特异。尽管这些新的MSI靶点癌症相关作用依旧未知,但可以确定的是存在siRNA介导的ALPK2抑制细胞凋亡表明这些新的反复发生的MSI事件的功能性含义值得进一步研究。

图3  全基因组MSI的泛癌症景观

4. MSI的全基因组突变谱 

a. 为了描述全基因组中MSI事件的分布,分析16种癌症类型的708个全基因组(平均覆盖范围:55个)的肿瘤 –正常样本对(图3)。研究发现,MSI-H、MSI-L(P = 6.25x10-11,Kolmogorov-Smirnov)以及MSS(P = 4.01x10-15)肿瘤中的MSI事件的数目显著不同。如图3a所示,当每种肿瘤类型的MSI数量按降序排列,这种降序是连续渐进而不是二分型的。

b. 使用全基因组和外显子组测序数据鉴定出外显子MSI数目的高度相关性(r = 0.90,P <10-15)。>

c. 为了分析读取深度对MSI检测灵敏度的影响,研究人员使用具有大量MSI事件和覆盖率的样本)进行分析。研究发现,当覆盖率降至20-30倍时,MSI事件恢复的数量大幅下降。 但是,没有发现MSI事件的数量与覆盖率之间存在明确的关系,这表明测序覆盖率不是主要因素。

d. 在高纯度样品中鉴定的MSI事件数量跨越了五个数量级,而在低纯度样品情况下,系统地检测到少于一千个MSI事件。该研究的样品中低纯度样品(例如,<>

e. 染色体上MSI事件的全基因组密度与SNV密度在统计学上无显著相关性。使用全基因组数据,3'UTR中MSI的数量要大得多。总的来说,结果表明在MSI-H肿瘤中3'UTR区域内的MSI事件处于正选择。已知癌细胞中3'UTR的缩短增加了转录物的稳定性,从而增加了癌基因的翻译水平。3'UTR中频繁的MSI事件虽然导致其相应基因的下调但可能具有与其相似的功能。

f. 为了研究表观遗传学特征与MSI事件的全基因组分布之间的关系,研究人员选择了MSI比率最高的50个基因组,并将它们的MSI密度与基于表观遗传标记的25个状态的12个染色质状态图进行比较。将最相似组织类型的染色质状态图用于每种肿瘤类型。分析显示,大多数MSI-H基因组中的活跃转录区域,启动子和增强子的MSI显著富集(双尾Fisher精确检验,P <0.05)。另一方面,组成型异染色质、被抑制的polycomb、二价启动子和静止染色质的非活性区域整体显著被消耗。>

图4  MS在MSI-H肿瘤中反复改变为MSI

5. 线粒体基因组中的MSI事件 

a. 为了获得线粒体MSI景观,研究人员分析了TCGA低覆盖率(6-8x)的全基因组数据,MSI多发肿瘤的低覆盖率样品的数量高于相同肿瘤类型的高覆盖率样品的数量。将MSI的发现应用于跨308个癌症基因组的31个线粒体MS基因座的一组(图3b)。大多数线粒体MS位点(31个MS位点中的22个; 71%)在所检查的所有肿瘤中不包含MSI事件,表明线粒体MSI与核MSI相比并不普遍。

b. 线粒体MSI事件与肿瘤的MSI状态无关:在MSI-HMSI-LMSS基因组中分别观察到43个(54%),22个(48%)和98个(54%)线粒体MSI事件。核MSI和线粒体MSI之间的关系一直存在争议,线粒体全基因组MSI表明这两个事件不相关。

c. 为了解MSI编码在MSI多发肿瘤中对功能的影响, 研究人员揭示了跨越外显子和非编码MS位点来区分MSI-H状态的突变模式,以及跨越整个基因组鉴定的超可变MS位点。该分析得到了MSI-H肿瘤特异性的MS基因座目录(图4a;)。研究发现,在这些MS位点中的几个位于易发生移码MSI的基因内,如KIAA2018,ACVR2A或ASTE1与移码和3'/5'UTR MSI事件(图2)相比,MSI-H中富集的MSI事件和MSS/MSI-L病例中缺失的MSI事件显示出癌症类型的特异性,这意味着在基于这三种癌症基因座上MSI的机制分子中存在共性。

d. 鉴于绝大多数MS位点位于非编码基因组内,在MSI-H病例中发现了一系列MSI频繁靶向的内含子和基因间的MS重复(图4b;)。候选MS很多,这些非编码基因座比MSI-H更特异于外显子基因座(参见图4a),这些检测已经产生了MSI-H肿瘤中经常被MSI靶向的编码和非编码MS基因座的集合,这为MSI-H分类所使用的标记集的细化和扩展提供了基础。

6. 从外显子测序数据预测MSI状态

a. 在MSI-H肿瘤中的MSI和移码MSI事件总数显著高于MSI-L或MSS肿瘤(P<10-15; kolmogorov-smirnov检验;图5a,b)。="" 在msi-h(r="0.32,外显子组中P" =="" 6.15x10-6,r="0.35,P" =="" 0.09;="" pearson相关性;图5c,d),msi-l(r="0.10,P" =="" 0.68,pearson相关)和mss(r="-0.06,P" =="" 0.56,pearson相关)肿瘤中snv和发生msi的数量呈中度至低度相关性。采用适形预测评估新样本与训练数据之间的相似性。="">

b. 采用预测模型对17种癌症不常检测MSI状态的7,089个外显子组进行预测,该研究使用置信水平0.75鉴定了另外91MSI-H病例,其中22个置信水平在0.80(图5gh)。 91病例中,BRCA16),OV14)和LIHC(肝细胞肝癌11例)最为常见其他非MSI倾向的癌症产生的频率大部分与文献报道的数据一致。这种差异可能是由于文献中用于某些肿瘤类型的小样本量群组特征(例如,肿瘤阶段)的差异以及该项研究中使用的模型漏掉了肿瘤类型特异性特征。

c. 总体而言,发现非-MSI多发癌症的MSI-H发生率为1.3%,明显低于在UCECSTADCOADREADESCA肿瘤中观察到的14%。与对COADREADSTADESCAUCEC MSI-H肿瘤(图1b)的分析一致,研究发现MSI事件的数量在这些新鉴定的MSI-H肿瘤中显著不同(图5h

d. 在预测为MSI-H的肿瘤中检测到1365MSI事件,在DPYSL212例),OR11G29),SLC22A99)和KIAA20188)中发生频率最高。研究人员发现31例患者在MMR基因中表现出体细胞突变,1CESCTCGA_EA_A410)和2LIHCTCGA-WQ-A9G7TCGAEP-A12J)在MSH2MSH6MLH3中分别具有种系突变。 此外,研究人员观察到1BRCA患者(TCGA-BH-A18G)携带具有高置信度的致病性的错义种系突变(Methods)和MSH3中的体细胞移码事件。

图5  MSI数量的分布和MSI状态的预测


结论

对来自多种癌症类型的MSI-H肿瘤的联合分析揭示了除MMR之外的几种DNA修复途径:ATR,BER,HR和NHEJ,它们均可被单核苷酸和MS突变所改变。此外,该项研究已经发现了MSI多发肿瘤以及不频繁受MSI影响的肿瘤类型(如BRCA中的FAM129AGMIPNEK3,以及OV中DPYSL2ALPK2)中发生移码MSI事件影响的新基因。其中一些基因对于MSI-H状态显示出强烈的预测能力,而其他基因对于单一癌症类型显示低复发(例如,用于STAD的SMAP1)。伴随这些肿瘤类型中MSI事件丰富的多样化分子功能,研究数据再次证实了某些基因对于特定癌症类型中的MSI特别敏感。尽管已经鉴定了一些潜在的与癌症相关的作用,但MSI与肿瘤发生之间的功能关系以及建立不同类型癌症MSI表型的分子机制的相似性仍有待验证。

本项研究通过使用基于MSI的预测模型将7,089名患者分类为MSI-H和MSS类别,并从16种不同的肿瘤类型中鉴定了91个新的MSI-H病例。 根据该分类模型,MSI-H病例在MSI多发肿瘤中的频率大约是其他肿瘤类型的十倍(14.5%:1.3%)。与先前基于SNV或单核苷酸重复序列的模型相反,该建模方法可以简单对评估个体患者预测错误可能性的置信水平进行解释。尽管在全基因组和外显子组MSI参考集中的搜索空间很大,但其仅包含大小为6-60bp的MS序列和四聚体重复序列。虽然MSI检测流程涵盖绝大多数MS基因座(例如,在我们的参考MS中重复的499%小于40bp),但是由于低覆盖率,某些非编码MS基因座中的MSI事件可能已经漏掉了显著性阈值,预计这里提到的MS事件的发生率可能低于真实的发生率。

在临床方面,研究人员提供了最大的目录列出人类肿瘤里常常发生变异的编码和非编码MS位点。由于使用高覆盖率基因组在临床中变得越发常见,因此该研究中确定的基因座,特别是非编码区中的基因座,可以作为MSI跨多种肿瘤类型的高度敏感标记物。

参考文献

[1] Isidro Cortes-Ciriano,Sejoon Lee, et al. A molecular portraitof microsatellite instability across multiple cancers[J]. Nature Communications,2017.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多