分享

文章解读 | 肿瘤免疫互作软件工具数据库全收录

 生物_医药_科研 2018-12-15

文章题目:Computational genomics tools for dissecting tumour-immune cell interactions

研究人员:麻省总医院分析与遗传转化中心,麻省理工学院-哈佛大学博德研究所等

发表时间:2016. 07

期刊名称:Nature Reviews Genetics

影响因子:40.282


文章亮点

本文全方面收录了研究肿瘤免疫中各个环节涉及到的热点软件工具和数据库(见表1、表2),同时作为一篇综述,深入浅出的讲述了肿瘤免疫相关的技术发展现况、面临的挑战、现今研究重点、未来发展和对应推荐软件,既可帮助入门学习肿瘤免疫,也可用于深入肿瘤免疫相关研究。

简介

近期癌症免疫疗法的重大突破,以及高通量技术费用降低,已经点燃了使用基因工具研究肿瘤-免疫细胞的强烈愿望。现已生成的数据以及新增的复杂度带来了不小挑战,它们需要使用计算工具来进行处理、分析以及将数据可视化。最近,已经开发了许多软件进行肿瘤免疫和基因数据的挖掘,并从机制方面提供了新的视角。文中作者回顾了用于癌症免疫学的计算基因组工具,并提供了相关预设信息功能需求,以帮助大家选择工具并组装分析流程。

研究背景

在下一代测序技术(NGS)的帮助下,现在已经可以实现癌症基因单个碱基改变确定与探查(如国际癌症基因组联合,ICGC,和癌症基因图谱,TCGA)。在这些技术进步的驱使下,许多研究中心目前都实施了精准肿瘤学项目,主要目的是使用基因方法来推荐癌症疗法。然而71种美国FDA许可的抗癌药物,帮助增加无进展和总生存率时间,分别仅约2.5和2.1个月。更重要的是,许多癌症突变并不能被现有靶标药剂所治疗,因而限制了精准肿瘤学更广阔的应用。

与其它系统性疗法相反的是,癌症免疫疗法有自适应肿瘤改变的潜力,这是因为机体可以生成特异T细胞杀死那些已进化和表面抗原发生改变的肿瘤克隆。然而,肿瘤细胞可以通过上调免疫细胞表面的免疫检查点分子,也就是免疫“刹车”,来逃脱免疫系统监测,如细胞毒性T淋巴细胞相关蛋白4(CTLA4),或者程序性细胞死亡1(PD1,也叫PDCD1)。最近,有抗体可以封闭免疫检查点,因而增强了T细胞抗癌反应,表现出了不起的临床效果。然而,只有部分患者能对单方检查点阻滞剂疗法有效,而确定这一精确行为模式和预示性标记物,是目前集中研究的主题。

随着检查点阻滞剂免疫疗法的开发,以及其它免疫疗法策略,包括治疗性疫苗和设计T细胞(专栏 1),肿瘤-免疫细胞互作成为了关注的焦点。然而,调查癌症-免疫细胞互作有不小的挑战,因为这两种多细胞生态系统处于不停的进化中,并有基因异质性:癌症的进展,可以被视为进化过程;免疫系统,有先天性和获得性免疫细胞亚群,其中的一些能显示表型可塑性并有记忆性。

在这篇综述中,作者首先简短回顾了肿瘤-免疫细胞互作,然后讨论了挖掘癌症基因组数据和提取免疫学参数的计算基因组工具。作者主要关注了NGS数据的高层次分析,包括肿瘤浸润淋巴细胞(tumour-infiltrating lymphocytes, TILs)定量,肿瘤抗原确定和T细胞受体(TCRs)谱图绘制,并提供了其相关要求和功能以用于帮助选择工作和组装分析流程。

专栏1 癌症免疫疗法和精准肿瘤学

研究结果

1. 肿瘤免疫细胞相互作用
肿瘤免疫细胞相互作用可以被概念化为一系列称为癌症免疫周期的事件(图 1a)。第一步是产生新抗原:即由体细胞突变产生的多肽。新抗原通过高度多样的
主要组织相容性复合体(MHC)等位基因——在人类中被称为人类白细胞抗原(HLA)——呈递于抗原呈递细胞(APC)的表面。癌细胞死亡后释放新抗原引发分子异质T细胞的扩增。这些T细胞通过与新抗原-MHC复合物的相互作用,通过不同的TCR识别癌细胞。

图1 肿瘤免疫一览

癌症免疫循环和肿瘤内免疫结构。a | 癌症免疫循环包括几个连贯步骤:癌症细胞生成的新抗原在癌症细胞死亡后释放,并由树突状细胞捕获。下一步,树突状细胞在主要组织相容性复合体(MHC)分子上递呈捕获的抗原给T细胞,导致诱发激活效应T细胞反应抗癌症特定抗原。在趋化因子梯度浓度引导下,激活的T细胞迁移并浸润肿瘤位点。T细胞通过T细胞受体(TCR)和新抗原-MHC复合体互作,特异识别并结合癌症细胞,并杀死癌症细胞(溶细胞活动)。多种分子和基因组工具可以评估上述癌症免疫细胞互作的每一个步骤,以及刺激和抑制因素。b | 肿瘤常常被获得性免疫系统细胞浸润,包括B细胞、细胞毒性T淋巴细胞(CTLs)、记忆T细胞、辅助T细胞和调控T细胞(Treg)。另外,肿瘤也会被先天免疫系统细胞浸润,包括巨噬细胞、树突状细胞、肥大细胞、自然杀伤细胞和髓系抑制细胞(MDSCs)。

肿瘤内免疫浸润的特征在于由先天和获得性免疫不同细胞亚群构成的巨大细胞异质性(图 1b),其分布在肿瘤类型之间和之内变化多样。这些分子和细胞异质性构建了一个复杂的肿瘤免疫细胞相互作用网络。很明显,肿瘤免疫细胞相互作用的综合分子表征需要基因组学工具。

2.组学数据分析

NGS技术在基因组、转录组或表观基因组谱分析中的应用组成了癌症免疫基因组学的数据主要来源。此外,最近在成像技术以及细胞表型分型技术方面进展,能够生成与基因组类型互补的数据类型(专栏 2)。

专栏2 成像技术和细胞表型

图2 基因组和免疫基因组分析的计算工具

a | 表格行为不同类型组学数据,列为基因组和免疫基因组的计算工具应用数据情况。b | 免疫基因组分析和工具是基于对组学数据的基因组分析,可以分为HLA分型、TILs定量、T细胞受体确定和肿瘤新抗原预测。

在癌症免疫学背景下的组学数据分析可以被看作是两步过程(图 2)。在对原始数据进行预处理之后,其中包括对数据质量的评估和人为因素的去除,第一步是对组学数据的基因组分析,主要侧重于肿瘤本身。该步骤工具用于包括鉴定SNP,小插入和缺失(indels),拷贝数变异(CNV),结构变异和基因融合,以及突变注释和解释。基因组分析组中的另一套工具使用RNA-seq来分析基因表达,用WES/SNP阵列数据来估计肿瘤异质性,或者分析DNA甲基化模式。第二种类型的分析使用免疫基因组工具,并更加关注肿瘤免疫细胞间相互作用。它们使用基因组分析和/或原始测序数据的输出,作为输入数据。这些免疫基因组分析的结果提供关于肿瘤微环境的两个关键特征信息:浸润免疫细胞的组成和功能取向,以及肿瘤抗原的来源和数量。在下面的段落中,作者将重点放在这两个方面:确定肿瘤免疫浸润的细胞组成,和肿瘤抗原的鉴定。此外,随着几种特异化T细胞反应技术的出现,作者还讨论了用于TCR谱分析的工具。

3.免疫浸润的细胞表征

由于不同类型的TIL对肿瘤进展有不同的影响,肿瘤中免疫浸润的细胞组成确定不仅提供了预后信息,而且还可以得出预测标记和新治疗策略的发展。用于细胞分型的计算基因组工具可分为基因集富集分析(gene set enrichment analysis, GSEA)和去卷积方法(deconvolution)(图 3a),都依赖于单个细胞群的表达谱矩阵。

图3 使用基因组数据决定肿瘤浸润的细胞组成

a | 免疫表型可以由不同实体(基因表达谱,DNA甲基化谱或免疫组化)来分型。b | 免疫相关基因特征由表达谱提出,用于区分免疫细胞类型、细胞状态和扰动。 c | 大块组织基因表达谱(m)是细胞特异基因表达特征(S)和不同细胞类型混合(f)卷积而成。

富集方法依赖于基于样本间对比,或者是单样本方法的基因组分析技术。GSEA评估排序的基因列表,用于已确定通路和细胞过程中的基因富集统计。在对比方法中,基因通过两种生物状态之间的差异表达来进行排序。另一种方法是,可以使用单样品GSEAssGSEA)富集分数,该分数表示特定基因组中的基因,在单个样品内协调上调或下调的程度。GSEA可用于解释从微阵列或RNA-seq获得的基因表达数据。

GSEA的优势在于它可以使用现有工具轻松应用,与传统的基因表达分析相比没有额外的样本量要求。GSEA的必要要求是,与特定免疫亚群相关的基因特征组装(图 3b)。相关项目如人类免疫学项目用于免疫学特征基因集(ImmuneSigDB)的基因组被收录于分子签特征数据库(MSigDB)中。

去卷积方法一是使用表达特征矩阵来从细胞混合物表达数据推断特定细胞比例,二是用算法来解决反演问题(inverse problem(图 3c)。去卷积细胞比例,开始是使用全血基因表达数据,标准线性回归的启发式算法(heuristic algorithm),后续开发了一种用于异构组织去卷积的R软件包。这个名为DeconRNASeq的软件包可以处理RNA-seq数据,但它仅在含有少数细胞类型的混合物上得到验证。其它已经开发了几种方法使用了不同技术来解决病态(ill-conditioned)反演问题(表 1)。最近,有一种称为CIBERSORT计算方法,可以用于从大块肿瘤的微阵列数据推断白细胞亚型。CIBERSORT使用22个白细胞亚群的特征表达矩阵,并应用了线性支持向量回归方法。

像基于基因表达谱的去卷积方法一样,细胞谱系特异性DNA甲基化模式可用于检测和量化白细胞亚群。尽管目前来自纯化细胞类型的参考甲基化模式数据仍然有限,但这些方法非常有希望能用来确定来自肿瘤组织的TIL组成。

4.确定肿瘤抗原

高肿瘤特异性的抗原——即由肿瘤细胞表达但不由正常细胞表达——具有引发肿瘤特异性免疫应答的潜力,因此癌症免疫疗法如工程改造T细胞和治疗性疫苗非常热门(专栏 1)。

图4 确定癌症新抗原

a | 新抗原来自癌症细胞内表达的突变蛋白。突变蛋白先被蛋白酶切成更短的多肽后再被抗原处理相关转运体(TAP)运输到内质网内,在内质网内多肽与MHC分子结合。之后多肽-MHC复合体来到细胞表面递呈抗原并被CD8+T细胞TCR识别。b | 用NEG数据预测新抗原需要整合几个计算任务:WES,WGS和RNAseq预测突变肽;综合RNAseq数据选择表达多肽;WES,WGS或RNAseq数据计算HLA分型;预测特定HLA等位基因的多肽-MHC结合。

引发免疫应答,必须将突变的蛋白质蛋白水解加工成短肽,然后与MHC分子结合,呈递给T细胞(图 4)。当从匹配的肿瘤和正常样品获得NGS数据时,可以通过整合三个计算任务(图 4)来预测新抗原:匹配肿瘤正常样品的突变蛋白的鉴定,HLA分型,然后预测新抗原-MHC结合亲和力。

确定突变蛋白。在变异检测工具中,基因组分析工具包(GATK)是文档描述程度最好和最成熟的流程之一,并且适用于WESWGSRNA-seq数据。另一种工具MuTect通过利用贝叶斯分类器确定高准确度和高灵敏度的SNPs,即使在低等位基因频率变异的情况下也能保证高特异性。最后,EBCall使用先前有关从一组非正态样本中获得的测序错误知识来更好地区分真正的变异和测序错误。为了预测基因变体对受影响的蛋白功能影响,注释工具依赖于公众可获得的基因,转录本和蛋白质序列库,例如EnsemblRefSeqUniprot。由于相同的变体可能对不同的转录本产生不同的功能影响,因此使用不同的数据库和优化异构体的策略会产生很大不同的结果。

HLA分型。国际免疫遗传学项目HLAIMGT / HLA)数据库是一个经过策划的并且持续更新的基因组和编码DNA序列集合,目前包含超过13,000个注释的HLA等位基因(3.22版,2015-10)。HLA等位基因的标准命名法使用基因名称(例如HLA-AHLA-BHLA-C),随后是星号(*)和四组数字,通过分号分隔(例如HLA- A*02:01:01:05)。第一组数字定义具有相似血清学特异性的HLA等位基因组。第二组和第三组数字分别在DNA水平上识别非同义或同义替换。最后,内含子或3'/ 5'非翻译区域的差异被编码在第四组数字中。

自从用NGS数据进行HLA分型的第一个工具发布以来,HLAminerSeq2HLA等几种方法已经被开发出来(表 1),它们在准确性和分辨率方面都改进了HLA分型性能。最新版本的方法针对四位数分辨率进行了优化,并考虑了不同类型的NGS数据(表 1)。在可用的方法中,最近开发的PolysolverOptitype4位数分辨率HLA分型显示出高准确性。Polysolver的高灵敏度也有助于鉴定HLA基因中的体细胞突变,在不同的癌症中表现为几个百分点的范围内。

预测新抗原-MHC绑定亲和力。直接参与肿瘤排斥的MHC分子属于I类(MHC-I)并存在于所有有核细胞上。与IMHC分子结合的病毒或肿瘤抗原呈递给CD8 + T淋巴细胞,其可以因此识别并杀死感染的细胞或肿瘤细胞。IIMHC分子(MHC-II)仅在特定细胞类型如树突细胞,B淋巴细胞和巨噬细胞上表达。MHC-II结合抗原呈递给CD4 + T细胞并参与辅助T细胞的活化。IIMHC分子与癌症免疫治疗最近由数据强调了其相关性,这些数据表明免疫原性突变可以被CD4 + T细胞识别。MHC-I分子结合的多肽是具有8-11个狭窄长度的氨基酸,而MHC-II分子可以容纳更长的肽,最多30个氨基酸。由与MHC-I分子结合的特定肽组成的复合物被称为pMHC-1,并且与肽与MHC-II分子结合的复合物被称为pMHC-IIpMHC-II的结合亲和力受肽核心和肽侧翼残基的影响。这种混杂的结合机制和训练数据的局限使得pMHC-II结合亲和力预测的任务比pMHC-I更具挑战性,并且用于pMHC-II结合预测的算法不如pMHC-I方法准确。

现在有几种计算方法可用于预测pMHC结合亲和力,其可以分为两大类:考虑蛋白质3D结构的基于结构的方法,和考虑蛋白质抗原的一级序列的基于序列的方法。由于pMHC复合物的3D结构数量有限,在这里,作者关注基于序列的方法。早期基于序列的方法,如BIMASSYFPEITHI,依赖于位置特异性评分矩阵(PSSMs),这些矩阵是从经实验证实多肽绑定特定MHC等位基因结合物中定义的。为了模拟绑定过程的非线性本质,已经开发了更多基于机器学习技术的高级方法(表 1)。非线性方法表现出比基于PSSM的算法更好的性能,这是由于它们能捕获结合过程的复杂性和蛋白质残基之间的相互依赖性的能力。使用共识方法(consensus method)也获得了更高的性能,如NetMHCconsCONSENSUS,它们结合了多种工具以获得更可靠的预测。

如果没有大量有关MHC等位基因和配体的信息,通过基于网页的数据库,如免疫表位数据库和分析资源(IEDB)、IMGT/HLA和Dana-Farber免疫学机器学习库(DFRFMLI),将这些信息手收集并公开可获取,上述方法的开发和验证就不可能实现(表 2)。然而,由于绝大多数HLA等位基因尚未就肽结合进行研究,所以现在方法开发已经越过等位基因特异性方法,而不需要特定有问题的等位基因对应肽段信息。这些所谓的泛特异性方法,如NetMHCpan,可以预测已知蛋白序列肽段与任何MHC分子的结合。简而言之,训练神经网络以输出给定pMHC对的亲和力,所述pMHC对具有MHC伪序列,这个伪序列是由HLA残基与其他绑定肽联系构建的,而这就是已知功能的HLA-A,HLA-B或HLA-C等位基因的多态性。泛特定工具(如NetMHCpan和NetMHCIIpan)得分位于最佳表现者中,甚至与等位基因特异性方法相比也是如此。

尽管pMHC结合是抗原呈递过程中最具选择性的事件,但抗原加工的前述步骤在MHC-I途径中也有作用:蛋白酶体切割,其是将大蛋白转化成较小肽所需的;并通过与抗原加工相关的转运蛋白(transporter associated with antigen processing, TAP)将肽转运到内质网中,这是将肽结合到MHC-1分子所必需的。此外,pMHC复合物的稳定性和识别pMHC复合物的CD8 + T细胞倾向(T cell propensity)是决定突变肽的免疫原性的另一因素。目前,只有一种工具可用于预测结合稳定性:NetMHCstab。用于预测蛋白酶体切割(例如,netChop Cterm和Pcleavage),TAP转运(例如PredTAP和SVMTAP)和T细胞倾向(例如POPI和POPISK)都可以使用,但预测值相当有限。尽管有其局限性,但这些方法可以整合到抗原预测流程中以减少假阳性,从而将表位验证所需的实验工作量降到最低。NetTepi是一个很好的方法集成实例,NetTepi是预测T细胞表位的计算流程,它结合了结合亲和力,结合稳定性并使用引文90中描述的预测T细胞倾向的延伸免疫原性模型(该模型的应用包含在IEDB网站上)。

5.TCR谱(profiling)

TCR必须能够针对丰富的不同抗原产生免疫应答。巨大的受体库多样性是一个称为V(D)J重组过程的结果,该过程由属于变量(V),多样性(D)和连接(J)基因组基因座的不同基因片段的体细胞重排组成。通过在连接位点添加或去除随机核苷酸并通过组合不同的α-链和β-链,组合多样性进一步增加。表1中报道的所有TCR分析工具可用于来自TCR基因座的靶向谱库(repertoire)测序(Rep-seq)的数据,并且在某些情况下也可用于B细胞受体基因座。最新版本的MiXCR直接支持从全转录组RNA-seq数据集中提取免疫谱。最近,基于MiTCR的计算策略被用于使用来自TCGA的RNAseq数据来表征TCR库。

表1 癌症免疫学计算工具

表2 癌症免疫学数据库和网页服务器

6.组装分析流程
癌症免疫基因组计算方法和数据库,为解析肿瘤免疫细胞相互作用提供了工具基础。然而,尽管有几种生物信息学工具可用,缺乏标准化会阻碍分析流程的简易组装。

直到最近才有报道综合几个分析步骤的新抗原预测计算解决方案(表1)。除NetTepi外,目前还有其他解决方案,如:NetCTLpan,这是一种预测蛋白酶体切割,TAP转运和pMHC结合的泛特异性方法;EpiToolkit,这是一个网页平台,用于灵活整合预先选定用于表位预测和优先级的计算模块;FRED 2,它是用于HLA分型,表位预测和选择的网络资源,其还允许设计个性定制流程原型;还有pVAC-Seq,它是考虑到突变覆盖率,变异等位基因频率和突变基因表达的新抗原鉴定流程。

结论

靶向T细胞以增强免疫反应的癌症免疫疗法已经在黑色素瘤上有了比较好的临床效果,并在各种癌症中表现出有效性。靶标检查点分子的几种药物正在进入临床阶段,癌症免疫疗法可能会成为主要的癌症治疗方案。因而,鉴别出可能受益于免疫治疗的患者变得非常重要,它主要依赖我们利用现有和新颖计算工具深入挖掘基因组数据的能力。

小编评论

此文虽然发表于2016年,但由于(1)作者对肿瘤免疫有深入研究,对现在研究趋势判定准确;(2)文中筛选收录的软件数据库十分实用,在全面覆盖肿瘤免疫各个环节的同时,也经得起时间验证,当下仍多为热门工具,以上使此文值得一读。

建议:对肿瘤免疫入门者来说可通读全文,可对肿瘤免疫研究现况和发展有基础了解;肿瘤免疫研究者则可以直接从收录的工具入手,寻找自己需要的软件数据开展自己的研究。

参考文献

[1] Hackl H, Charoentong P, Finotello F, et al. Computational genomics tools for dissecting tumour–immune cell interactions[J]. Nature Reviews Genetics, 2016, 17(8): 441.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多