分享

科研 | Nucleic Acids Res.:综合多组学分析揭示一组在lncRNA EPR直接转录靶标中由TGF-β调控的基因

 微科享 2021-04-19

编译:杨丽军,编辑:Emma、江舜尧。

原创微文,欢迎转发转载。

导读

近年来,在哺乳动物基因组中发现了大量的长非编码RNA(lncRNAs)。最近的研究指出lncRNAs是生物学基本方面的调节因子,因为它们能够重新编程基因表达,并影响不同的细胞功能,包括细胞命运决定、细胞周期进程、凋亡和衰老。lncRNA表达的改变与关键细胞回路的失调有关,可能与多种人类疾病有关,包括癌症。LncRNAs可以通过控制转录复合物的功能、调节染色质结构、参与核糖核蛋白复合物或作为蛋白质或micro-RNAs的诱饵来影响基因表达。lncRNAs与其他RNA分子以及DNA和蛋白质相互作用的能力解释了它们在调节不同层次的基因表达中的多重作用。LncRNAs已被证明通过直接与核酸相互作用或通过特定的蛋白质伙伴将染色质修饰酶或转录调节剂靶向特定基因组序列,从而在染色质水平上控制基因转录。最近发展的高通量技术——通过RNA纯化(CHIP)分离染色质、捕捉杂交分析RNA靶点(CHART)、染色质寡亲和沉淀(ChOP)和RNA反义纯化(RAP)——促进了一些lncRNAs染色质靶点的发现。然而,在基因表达调控方面,将lncRNA/染色质相互作用与实际结果联系起来的尝试有限。

最近报道了EPR(上皮程序调机器的缩写,在小鼠中又称BC030870),一种高度富集于上皮组织的基因间lncRNA,在人和小鼠中保守。虽然EPR包含一个开放阅读框,这个阅读框被翻译成位于上皮细胞连接处的小肽,但是报道了lncRNA深刻影响基因的表达,而大部分的变化与肽生物发生无关,如对两个独立于肽生物发生的独立点突变体的表型分析所示。还发现EPR过表达可阻止TGF-β-诱导上皮-间充质转化(EMT)并抑制细胞增殖。对最后一个方面进行了详细的研究,研究发现EPR通过与转录因子SMAD3和RNA结合蛋白KHSRP(13)相互作用,在转录和转录后水平调节编码周期依赖性激酶抑制剂Cdkn1a(p21WAF1/Cip1)的基因Cdkn1a的表达。在小鼠原位移植模型中,乳腺细胞EPR过表达抑制细胞增殖和迁移,并损害乳腺肿瘤的形成。

在这里,作者通过ChIRP-Seq鉴定了EPR过表达永生化NMuMG乳腺细胞基因组染色质上的EPR结合位点,并且为了将EPR/染色质相互作用与表观转录体的重塑联系起来,通过ChIP-Seq分析了启动子/增强子区域的组蛋白激活标记。整合ChIRP-Seq、ChIP-Seq和RNA-Seq数据,可以获得乳腺细胞中EPR激活表达的真正的直接转录靶点的图谱,并确定在TGF-β-诱导乳腺细胞产生EMT。


论文ID


原名:Comprehensive multi-omics analysis uncovers a group of TGF-β-regulated genes among lncRNA EPR direct transcriptional targets
译名:综合多组学分析揭示一组在lncRNA EPR直接转录靶标中由TGF-β调控的基因
期刊:Nucleic Acids Research
IF:11.501
发表时间:2020.08
通讯作者:Gabriele Bucci,Roberto Gherzi
通讯作者单位:美国国立卫生研究院遗传学与基因组学实验室

实验设计

长非编码RNAs(Longnon-codingrnas,lncRNAs)可以影响多层次的基因表达,从而控制细胞的重要功能。以前已经证明,lncRNA-EPR通过控制不同水平的基因表达,影响乳腺细胞的增殖和迁移,并在小鼠原位移植模型中损害乳腺肿瘤的形成。在这里,作者利用ChIRP-Seq鉴定了高表达EPR的NMuMG乳腺细胞染色质上的EPR结合位点,并在基因组中鉴定了其反式结合位点。为了使EPR/染色质相互作用与表观转录体结构重塑相关,利用ChIP-Seq分析了启动子/增强子区域的组蛋白激活标记。最后,综合ChIRP-Seq、ChIP-Seq和RNA-Seq的数据进行综合分析,筛选出一组真正的EPR直接转录靶点。其中,确定了一组EPR靶点,其表达受TGF-β调控,其中之一Arrdc3能够调节上皮间充质转化。这个实验框架使作者能够将lncRNA/染色质相互作用与基因表达的真实结果联系起来,并开始将EPR调控的基因网络定义为TGF-β通路的一个组成部分。


实验结果

1. EPR染色质结合位点的系统识别

作者之前已经证明lncRNA-EPR过表达导致永生化NMuMG乳腺细胞中基因表达模式的巨大重塑,先前的研究集中在Cdkn1a基因的转录和转录后调控上(13)。在这里,希望系统地分析EPR在基因组水平上对转录控制的作用,以发现额外的直接靶基因,这些基因可能有助于EPR过度表达细胞所显示的多方面表型。

首先,深入分析了之前的RNA-Seq数据,发当比较mock上调时,67%的基因表达受到显著影响(Benjamini和Hochberg校正值<0.01;| log2FC |≥1.5)。

RNA-Seq检测到的部分基因表达变化通过RT-qPCR分析在Rossiet的研究中中得到验证。在这里,为了加强作者的结果,将验证范围扩大到表达增量FC接近最小阈值的基因和对得出94%估计值的数据进行统计分析。然后,测量了NMuMG-EPR中上调的许多基因的新生转录水平,发现EPR过表达导致基因转录显著增强(图1A)。为了选择EPR的直接转录靶点,采用了图1B所示的实验管道。

首先,为了进行EPR结合位点的全基因组定位,使用RNA纯化法分离染色质,然后进行高通量测序(ChIRP-Seq)。对两个独立的EPR结合寡核苷酸库(表示为奇数或偶数)中的每一个,平均生成了1250万个映射配对读数。两组寡核苷酸产生了相似的ChIRP-Seq结果,皮尔逊相关分析(r=0.74)显示了显著性(P<0.05)。基于qRT-PCR的input和pull-down RNA分析表明,奇数和偶数寡核苷酸均能降低EPR RNA的75%以上,而它们没有下调Rpl32 mRNA。与染色质结合的EPR在其自身的基因组转录位点表现出显著的富集,而在邻近基因(在8号染色体的1 Mb区域)没有检测到富集,因此排除了可能的顺式调节作用。

考虑到偶数池和奇数池中的一致位点,确定了23382个EPR结合位点。如其他lncRNAs报道的那样,EPR结合位点众多,集中,并散布在基因组中。结合位点的特征是平均长度为393nt,均匀分布在染色体上,并在基因密集区富集。更具体地说,EPR结合位点在转录单元附近积聚,但在转录起始位点(TSS)的紧邻处被强烈耗尽。

作者分析了从TSS到上游500kb的基因组区域中EPR结合位点的密度,并测试了NMuMG-EPR中上调的基因在增量距离(上游50、100、150和500 kb)下的富集度(Fisher精确检验)。结合位点的最高密度位于TSS和–50kB之间的区域。类似地,与mock相比,NMuMG-EPR上调基因中检测到的最高峰值浓度位于同一区域,具有显著富集(P<0.05,比值比>1)。因此,将重点放在5777个EPR靶基因上,这些基因位于TSS和-6.0 kb之间的区域,将把这些基因作为“近端”靶点,并将那些在-6.0 kb和-50 kb的区域显示EPR结合位点的基因作为“远端”靶点。图2A显示了EPR与近端和远端靶相互作用的例子,图2B显示了基于qPCR的ChIRP-Seq结果验证。

以前报道过,EPR在Cdkn1a启动子处招募SMAD3分子,从而影响其转录。使用HOMER工具在EPR靶向的染色质区域中搜索从头DNA结合基序,发现除其他外,SMAD3一致性基序在近端靶区有显著的富集(图3A,P<1e-26)。验证了SMAD3与抗SMAD3的CHIP分析的EPR靶位点的相互作用(图3B)。

总之,ChIRP-seq分析使作者能够识别EPR的跨基因组结合位点,其中许多位点与潜在的调控区域相关。

图1 A. q-PCR分析稳转空载和EPR的NMuMG细胞的mRNA变化(mock,黑色的条带),EPR(NMuMG-EPR,绿色的条带)。请注意图标的对数刻度。qRT-PCR实验显示的值是三个独立试验的平均值(±SEM)。统计学显著性:**p<0.001(学生t检验)。B.本研究采用的实验框架示意图

图2 EPR的染色质靶点的CHIRP-Seq分析

A.CHIRP-Seq实验的简要说明-以显示的基因为中心-展现EPR两个近端两个远端的靶点。每个目标基因的基因组坐标显示在每个版块的顶部。相关CHIRP峰的位置(在偶数和基数样本中重叠)由绿色箭头标记,蓝色箭头表示转录方向。B.EPR基因组靶标的定量PCR分析。通过qPCR分析输入DNA和使用奇数(红条)或偶数(蓝条)平铺寡核苷酸纯化的DNA,以扩增Rp32和B2m基因(阴性对照)或所示靶基因中的区域。表示为输入百分比的值是一式三份进行的三个独立实验的平均值(±SEM)。

图3 EPR基因组靶标的分析

A.HOMER从头转录因子结合基序,富集在EPR与染色质的近端(左)或远端(右)结合位点。显示了基序富集的p值。B.用正常小鼠免疫球蛋白或小鼠抗SMAD3单克隆抗体对从NMuMG-EPR制备的染色质进行免疫沉淀实验。SMAD3与染色质上一组选择的EPR结合位点的关联通过使用特异性引物的qPCR来验证。所示的qPCR实验值是三次独立实验的平均值。统计显著性:**P<0.001(学生t检验)。C.TDF分析电子顺磁共振与其近端(左)或远端(右)目标之间的相互作用。上图中,三重螺旋的数量以蓝色显示,而以灰色突出显示的区域表示显著的DNA结合域(DBDs)(y轴)。三重螺旋和DBDs的位置是相对于EPR序列(x轴)而言的。粉色条标记可以进行自动绑定的EPR区域的位置。下图,TDF分析揭示了与其他结构域相比,ⅰ,ⅴ和ⅵ形成三螺旋的高倾向性(较高的z分数)。D.饼状图,显示可与EPRDNA结合结构域结合的EPR靶序列的百分比。

2. EPR与染色质的相互作用模式

三螺旋核酸结构的形成已经被描述,包括RNA和双链DNA主沟之间的Hoogsteen碱基配对相互作用。据报道,一些lncRNAs利用这种机制直接靶向基因组中的特定序列,并发挥其调节功能。Costa等人最近开发了一种计算方法,称为三重域查找器(TDF),在人类基因组中检测lncRNAs及其靶标中的三联形成区域。作者采用TDF来研究EPR与近端或远端靶形成三联体的能力。TDF分析显示6个不同的DNA结合域(DBD,命名为IVI),其中I、V和VI域显示出与EPR靶点形成三螺旋的高倾向性(图3C)。分析还表明,EPR有可能在转录的确切位置在cis中形成三重螺旋(图3C)。图3D显示大约三分之二的EPR靶点可以与其DBDs相关联,从而产生三重靶DNA位点(TTSs)。有趣的是,这些远端和远端的调控目标是相似的。总之,数据表明,EPR有可能通过三重螺旋结构与大多数靶分子相互作用。

3. 染色质分析显示EPR过表达重塑了活性启动子/增强子区域的组蛋白标记

作者在基因组水平上研究了EPR在NMuMG细胞中的过表达是否影响染色质上转录激活的表观遗传标记的沉积。为此,通过ChIP-Seq分析分析了组蛋白H3赖氨酸27乙酰化(H3K27ac)(与活性启动子和增强子相关的标记)和组蛋白H3赖氨酸4-三甲基化(H3K4me3)的基因组占有率。这些与mock组相比,在NMuMG-EPR中选择性标记活跃和稳定的转录起始位点。EPR过表达在大量基因上分别增强了H3K27ac或H3K4me3标记的沉积。通过CHIP-qPCR分析验证了CHIP-Seq结果。图4A和图B所示的火山图分析表明,EPR过表达显著增加了转录激活或准备转录的基因数量。

为了将组蛋白激活标记的诱导与基因表达变化相关联,将显示H3K27ac或H3K4me3标记增强的基因列表与NMuMG-EPR中表达高于mock的基因列表相交叉。图4C显示,在NMuMG-EPR中表达上调的基因中,50%的H3K27ac水平增强(近端39.1%,远端9.9%)。正如预期的,在远端调控位置显示增强的H3K4me3标记的基因数量非常有限(0.84%),而37.4%的基因在NMuMG-EPR中表达上调显示近端区域该激活标记的增强水平(图4D)。总之,数据表明,大约有一半的由EPR过表达诱导的基因表现出基因转录激活的组蛋白标记的积累,主要集中在它们的启动子/TSS区域。

图4 活化组蛋白标记的分析(A和B)

火山图显示H3K27ac(A)或H3K4me3。B. 标记的基因在NMuMG-EPR与mock相比具有不同的占用率。(C和D)饼图显示了与mock相比,在NMuMGEPR诱导的基因中,显示H3K27Ac(C图)或H3K4Me3(D图)标记在近端和远端区域占据增强的基因的百分比。

4. EPR的真实直接转录靶点

本研究的最终目的是在启动子/增强子区组蛋白活化标记沉积增强的基因中识别EPR的真正直接靶点,并且在NMuMG-EPR中表达增加。

首先,确定EPR与TSS上游调节区域的结合是否影响组蛋白活性的沉积标记,将CHIRP-Seq数据与ChIP-Seq配置文件交叉。如图5A所示,17.25%的近端EPR靶点显示在EPR过表达时H3K4me3标记的沉积增强,而正如预期的那样,H3K4me3在远端区域的富集程度很低。同时,计算出26.5%的EPR靶基因(15.6%的近端基因和10.87%的远端基因)显示H3K27ac标记在NMuMGEPR中的累积增强(图5B)。

接下来将从ChIRP-Seq得到的数据与之前的RNA-Seq(13)进行交叉。如图5C所示,约20%的上调基因在其启动子/增强子区域显示EPR结合位点(近端10.5%,远端8.4%)。

为了全面整合数据,使用了翻转图表示法。图5D(左面板)所示的矩阵提供了EPR直接基因组靶点数量的合成视图,这些靶点富含组蛋白激活标记。图5D的右侧面板显示了两个组蛋白激活标记富集的EPR靶点的数量,与mock相比,NMuMG-EPR中的表达增强。分析结果得出了表1所列的42个基因。计算出其中21个靶具有一个与EPR的DBD相关的TTS,因此可以形成一个三重螺旋。NMuMG-EPR中这些基因子集增强表达的验证如图5E所示。最重要的是,图5f显示NMuMG-EPR和NMuMG细胞中的EPR沉默显著降低了一组直接EPR靶基因的表达水平。

总而言之,作者策略能够鉴定出一系列基因,这些基因在与染色质结合后即为EPR的真正功能性直接转录靶标(此后称为EPR靶标)。

图5 EPR真正直接转录靶标的鉴定

A. 饼图显示了在那些直接与EPR结合的基因中,在EPR过表达时,在近端或远端靶区显示H3K4me3沉积增强的基因的百分比。B. 饼图显示了在那些与EPR直接结合的基因中,在EPR过表达时,在近端或远端靶区显示H3K27ac沉积增强的基因的百分比。C. 饼图显示了在NMuMG细胞中诱导EPR过表达的基因中,显示EPR与近端或远端靶区结合的基因的百分比。D. 本研究中进行的不同基因组分析整合的翻转图。该矩阵显示了基因的数量,显示了增强的基因表达(RNA-Seq)、H3K27ac或H3K4me3增强的占用率以及EPR结合(ChIRP-Seq)的存在。数据集的大小由最右侧显示的水平条表示。E. 在mock或NMuMG-EPR细胞中转录本的qRT-PCR分析。F. qRT-PCR分析在 NMuMG-EPR或 NMuMG野生型细胞中分别沉默无义序列和EPR序列的转录数据。所示的实验值是三次独立实验的平均值。统计显著性:*P < 0.01,**P < 0.001(学生t检验)。

表1 EPR的直接专绿靶点

圆点标记的基因表达被TGF-β诱导显著下调(处理24h后),p<0.001,学生t检验。

5. 选择EPR靶点的功能表征

已经报道在小鼠和人类乳腺细胞中,EPR几乎只在管腔谱系中表达。因此,作者研究了EPR靶点是否与lncRNA具有相同的细胞分布。元数据分析表明,所有EPR靶点均在管腔细胞中表达,重要的是,与其他谱系相比,一大组靶点在成熟和祖细胞管腔细胞中有显著表达,如小鼠单细胞RNA-Seq和人类数据集中的RNA-Seq。

接下来,考虑到TGF-β对EPR的下调作用有助于实现TGF-β在乳腺细胞中的作用,作者想研究EPR靶点是否接受TGF-β依赖性调控。有趣的是,之前的RNA-Seq数据分析来自于用TGF-β处理过的NMuMG细胞,发现与对照细胞比较有三分之二EPR靶点下调(表1)。图6A显示接受TGF-β处理24小时后下调的EPR靶点。TGF-βⅠ型受体信号的需要证明了SB431542化合物阻碍TGF-β诱导的EPR下调的能力。重要的是,EPR的过表达阻止了TGF-β诱导相同靶点的下调(图6B),从而表明EPR拮抗TGF-β关于其靶基因的表达。

在EPR靶点中,作者关注的是包含protein-3的arrestin区,鉴于其在转移性乳腺癌中作为肿瘤抑制因子的重要性,并评估了其siRNA介导的NMuMG-EPR沉默的后果。图6C显示,过表达EPR的细胞中Arrdc3的下调显著增加了作为EMT标志物的间充质标记物Fn1、Cdh2、Snai1和Tnc的表达。图6D显示NMuMG-EPR中敲低Arrde3显著增强了TGF-β依赖性诱导的EMT标记物的表达。

总的来说,数据揭示了一组TGF-β调控的EPR靶点ARRDC3中的基因能够调节上皮间充质转化。

图6 一组受TGF-β调控的EPR直接靶标,沉默Arrfdc3基因上调EMT因子的表达

A. qRT-PCR分析血清饥饿处理(2%胎牛血清,16h)和TGF-β(5ng/ml,24h)及未处理的NMuMG细胞中EPR靶点的表达。B. qRT-PCR分析血清缺乏和TGF-β处理24h及未处理的过表达EPR的NMuMG细胞与mock组中EPR靶点的表达。C. qRT-PCR分析NMuMG-EPR细胞中分别沉默无义序列和Arrdc3后EPR靶点的表达。D. qRT-PCR分析NMuMG-EPR细胞中分别沉默无义序列和Arrdc3后24h,进行血清饥饿处理,TGF-β处理24h和不处理EPR靶点的表达。实验数据是三次独立实验的平均值。统计显著性:所示的定量逆转录聚合酶链反应实验值是三次独立实验的平均值(扫描电镜)。统计显著性:*P < 0.01,**P < 0.001(学生t检验)。

讨论

尽管在过去的几年里取得了一些进展,通过开发旨在表征lnRNA/染色质联系的新技术,了解lnRNA操纵的转录调控仍然是一个艰巨的挑战。该领域的一个尚未解决的问题是预测和定义与染色质结合的lncRNAs的转录功能。据作者所知,很少有研究试图全面系统地比较lncRNA/染色质相互作用和靶基因表达的最终调节。在这里,应用基因组学的方法来识别在过表达lncRNA的乳腺细胞中,其转录直接受EPR控制的靶基因,并在其中选择属于TGF-β调控的EMT通路。

正如其他lncRNAs所描述的那样,EPR与许多基因结合。出乎意料的是,采用的多组分选择策略产生了42个符合作者实验要求的基因,(i)在TSS上游的调节区域与EPR直接接触,(ii)在它们的启动子/增强子区域显示增强的组蛋白激活标记,以及(iii)与mock组相比,在NMuMG-EPR中上调。所选择的基因可以被认为是EPR真正的直接转录靶标,其数量少无疑是由于作者对RNA-Seq数据的分析采用了严格的标准,目的是尽量减少假阳性的数量。然而,可能还有其他的解释,暗示除了转录激活外,EPR染色质相互作用还存在其他功能。尽管观察到NMuMG-EPR中基因表达的显著上调,但EPR与某些调控区域的相互作用可能会引起某些靶基因表达的下调,这方面的研究还需要进一步的研究。事实上,对EPR结合基因组区域的从头基序分析揭示了转录因子潜在结合位点的丰富,这些转录因子能够参与激活或抑制复合物,因此EPR/染色质相互作用可能导致基因表达的阳性或阴性控制。还必须考虑到,与染色质结合的EPR可能需要参与mRNA转录后修饰的蛋白质复合物的共转录募集,如多聚腺苷酸化和选择性剪接,正如其他lncRNAs那样。事实上,实验室的初步数据表明,EPR可以与聚腺苷酸复合物结合。还可以设想,EPR与在本研究中未分析的基因组区域(内含子或远上游增强子)的结合,可以介导染色质的长程三维排列,从而提高某些基因的表达。在这方面,染色体构象捕获与高通量测序实验相结合,应用于筛选在NMuMG-EPR过度表达中上调的基因,并且不显示EPR与本研究中分析的基因组区域的结合—正在作者的实验室中进行。最后,考虑到EPR最初是通过其与促进mRNA衰变因子KHSRP的相互作用及其削弱KHSRP活性的能力,可以解释一组既不显示与EPR直接相互作用也不显示增强组蛋白激活标记的基因的上调,假设它们的表达变化可能是由于EPR阻止mRNA衰减的能力。

有人认为lncRNAs可能通过不同的方式与染色质相互作用。lncRNAs可通过与染色质和DNA修饰物的相互作用,或具有与RNA和DNA结合的双重能力的蛋白质,或反过来促进其与DNA结合蛋白质相互作用的RNA结合蛋白质。虽然这代表了EPR的一种可能的情况,可以通过对核蛋白伴侣的全面搜索来研究,但是作者的注意力被EPR与其大量靶序列之间的高序列同源性所吸引。R-loops被描述为三股RNA-DNA链,可以在DNA模板链中形成共转录,主要影响cis中的基因表达。然而,EPR不能与cis中的靶点相互作用促使作者排除这一机制,并研究EPR与DNA靶点形成三螺旋的可能性。事实上,越来越多的证据支持lncRNAs通过三重螺旋与DNA的序列特异性相互作用,这种结构基于将第三条链插入DNA双链的主凹槽。这种排列基于Hoogsteen碱基配对规则,通常富含启动子和其他调控区域,并且可以在基因表达的控制中发挥重要作用,并得到了大量实验证据的支持。有趣的是,三分之二的EPR结合的基因可以通过三螺旋结构与lncRNA结合,这表明这是EPR-DNA相互作用的主要模式。

总之,作者已经确定了几个基因,它们是基因组中直接的EPR靶点,其表达受EPR水平的调控。有趣的是,发现的许多真正的直接转录靶点编码的蛋白质参与了上皮细胞的粘附、极性、迁移和增殖,至少部分地解释了EPR在细胞培养和动物模型中引起的生物学效应。先前提供的证据表明,EPR能够通过TGF-β快速下调,然而过表达抑制乳腺细胞TGF-β诱导的EMT的发生。有趣的是,目前的数据表明,大部分EPR靶点是通过TGF-β调控,并且沉默其中一种肿瘤抑制因子Arrdc3可以增强EMT标记物的表达。考虑到EPR直接在转录水平激活一组在TGF-β诱发EMT时的靶基因,人们很容易假设TGF-β诱发EPR下调导致引发EMT的EPR靶点下调。在这项研究中定义的EPR靶点代表了揭示EPR中心信号通路进一步分支的起点。

原文链接:  https://academic./nar/article-lookup/doi/10.1093/nar/gkaa628



    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多