分享

肿瘤中lncRNA机制研究的常见思路

 paul2020 2018-06-07

lncRNA的生物学功能【1】


目前人们对lncRNA认识还处在初级阶段,lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而大量研究表明,lncRNA在细胞核内、核外,通过染色质修饰,转录调控,转录后调控等多种方式调节基因表达,在肿瘤发生发展中具有重要作用。

lncRNA在肿瘤中的作用机制【2】


肿瘤中部分已知lncRNA【3】


lncRNA功能研究的基本思路

一般来说,lncRNA功能研究的主线包含3个主要步骤:

(1)高通量筛选。全转录组测序和lncRNA芯片是目前最常用的技术手段,通过这种高通量的筛选方法,可以快速获得不同实验组间差异表达的lncRNA和mRNA。

(2)候选lncRNA的确定。通过生物信息学分析,从大量lncRNA 中筛选有潜在功能意义的lncRNA。

(3)目标lncRNA的功能分析与验证。根据上述生物信息分析推断出lncRNA可能的生物学功能,并设计相应的实验来验证假设是否成立。

  lncRNA研究的基本流程


生物信息学——确定候选lncRNA


1


lncRNA和mRNA的差异表达分析


通常所说的lncRNA测序其实就是全转录组测序,与普通mRNA测序不同的是,lncRNA测序是通过rRNA去除从而对含有polyA结构和不含polyA的RNA一同富集并建库测序。理论上这种策略能够鉴定到更多的lncRNA,并且能够与mRNA同时进行分析,更有利于推测lncRNA可能的调控途径。同样的,lncRNA芯片也同时包含mRNA和lncRNA的探针,以上这些优势使得lncRNA测序和芯片技术成为了目前最主流的高通量筛选手段。

lncRNA历年文献发表情况【3】



2


确定候选的lncRNA


因为目前已知的lncRNA数量非常庞大,加上转录组测序鉴定出来的新lncRNA,一次实验往往能够获得非常大量的差异表达lncRNA,因此除了通过统计学的筛选(比如fold-change和p-value),必须利用各种生物信息学方法进一步推测这些差异表达lncRNA的功能,确定与肿瘤发生发展关系密切的lncRNA做为候选。主要的方法有以下一些:

(1)根据lncRNA在基因组上的位置进行筛选

根据lncRNA在基因组上与附近mRNA的位置关系, lncRNA可以分为以下五种类型:

lncRNA的类别示意图【4】


(2)根据lncRNA的靶基因进行筛选

虽然目前数据库中收录了数量庞大的lncRNA序列,但绝大部分仅仅是序列而已,但是基因组中的3万多个基因的功能却是相对比较清楚的,因此我们可以首先通过预测lncRNA与mRNA之间可能的靶向调控关系,进而根据mRNA的功能反过来推测lncRNA的功能。

 cis靶基因:lncRNA的顺式作用靶基因主要是基于其对于基因组位置上下游基因的影响来进行预测。利用已有的基因组注释文件,对lncRNA上下游10kb区域内进行寻找,所有关联到的基因均可作为lncRNA的cis靶基因。

trans靶基因:lncRNA的反式作用靶基因主要是基于序列互补进行的。其认为lncRNA序列和对应的靶基因序列互补,可以将其他因子携带到靶基因上进行调控。使用软件为blast和RNAplex,blast进行序列互补计算,RNAplex进行热力学上的互补计算。

 靶基因富集分析:获得靶基因之后,我们也可以进一步通过靶基因的功能和参与的pathway进行富集分析,通过显著性富集的GO或pathway与疾病之间的关系,再反过来寻找对应的lncRNA。

lncRNA靶基因的pathway富集


(3)根据lncRNA与mRNA在表达上的协同关系进行推断

共表达分析(co-expression)

基因表达受到复杂的调控网络的调控,这包括其他基因和非编码RNA,通过共表达计算构建共表达基因调控网络,可通过网络筛选具有hub地位的lncRNA(即该lncRNA与其它基因具有很高的连通度)。

lncRNA-mRNA共表达网络示例图


也可以分别构建疾病组和对照组的共表达网络,然后比较两个网络之间“地位”变化最明显的lncRNA。另一方面,在已知某个mRNA功能的前提下,也可以直接通过这种方法,直接寻找到与该mRNA关系最密切的lncRNA。

      疾病组网络                         对照组网络【5】


加权共表达分析(WGCNA)

加权基因共表达网络分析(weighted gene co-expression network analysis)算法作为一种高效、准确的数据挖掘方法,日前应用非常广泛【6】。

WGCNA共表达网络分析示例图


WGCNA算法致力于寻找协同表达的基因模块(module),并探索基因网络与研究者关注的表型之间的关联关系。module被定义为一组具有类似表达谱的基因,如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么我们有理由认为这些基因在功能上是相关的,可以把他们定义为一个模块。也可以这么理解,每个模块就是一个“超级基因”,它的表达量是所有成员共同作用的结果。以上所说的“基因”时候一个广义的概念,当我们把mRNA和lncRNA放在一起进行分析时,module中就同时包含了两者的信息。由于目前已知功能的lncRNA微乎其微,这种分析策略非常有助于寻找跟我们所熟知的mRNA关系密切的那些lncRNA,从而有效缩小候选lncRNA的范围。

肝癌中lncRNA的共表达网络【7】

4)基于lncRNA与protein的关系进行筛选

通过以上生物信息学手段,能够推断出lncRNA与mRNA可能存在的调控关系,但这仅仅是计算的层面,在生物学层面上这种调控往往是通过lncRNA-蛋白复合物的形式发挥作用的。即lncRNA首先与某些蛋白(包括转录因子、表观修饰因子等)形成RNA-protein复合体,然后再与下游的DNA结合,调控DNA的转录。

lncRNA介导的这种转录调控作用多为trans调控,即lncRNA对其他染色体上编码基因的调控。

linc1992-hnRNPL复合体对TNFα的调控【8】


但也有研究发现,lncRNA-protein 也能够以cis的方式对同一染色体上临近mRNA的转录进行调控。

lncTCF7-SWI/SNF复合体激活附近的TCF7表达【9】


通过类似这种模式,lncRNA也可以作为分子阻断剂。这一类lncRNA被转录后,会直接和蛋白结合,由于lncRNA的结合,这类蛋白的功能被阻断,从而影响了下游的基因转录。或者,lncRNA跟蛋白的结合,妨碍了该蛋白与另一个蛋白形成复合物,即可抑制了蛋白之间形成有功能的复合体。

(5)根据lncRNA与miRNA的靶向关系筛选

细胞内存在竞争性内源RNA(Competitive endogenous RNA,ceRNA),这些ceRNA分子(mRNA,lncRNA、假基因等)能够通过miRNA应答元件(MicroRNA Response Element,MRE)竞争结合相同的miRNA以达到调节彼此表达水平。细胞内除mRNA之外,还存在另外一些RNA分子,比如长链非编码RNA(lncRNA)也存在miRNA应答元件(MRE),当lncRNA与mRNA存在相同的MRE时,他们之间构成了竞争相同种类miRNA的关系,换句话说,细胞内lncRNA表达水平的高低,直接影响了可被相应mRNA结合的miRNA数量的多少,也就是说,lncRNA通过MRE这个桥梁,间接地调控了mRNA的表达水平,从而调控细胞功能。

根据以上原理,我们可以通过软件预测lncRNA与miRNA可能存在的靶向关系,再根据已知的miRNA与mRNA之间的调控关系,最终确定3者之前的网络。ceRNA分析是基于lncRNA和mRNA的表达值,通过回归模型分析筛选ceRNA对,与microRNA种子序列和lncRNA和mRNA匹配,这两方面结合进行预测,建立microRNA的海绵吸附作用的调控网络,找到核心的ceRNA。有些算法同时考虑miRNA的表达【10】,但因为ceRNA对miRNA只是吸附,并不一定影响miRNA本身的表达,所以也可以不去考虑。

ceRNA调控网络示例图



3


lncRNA的编码能力预测


高通量检测手段(芯片或测序)能够帮我们筛选到某种特定条件下特异性表达的lncRNA。当我们拿到这条lncRNA后,除了在样本中qRT-PCR验证其表达外,还需要分析其编码能力:

 CPC分析

CPC(Coding Potential Calculator)是一种蛋白质编码潜能计算工具,将转录本与已知蛋白数据库做blastx比对,依据转录本各个编码框的生物学序列特征,通过支持向量机的分类器来评估转录本的编码潜能。

 CNCI分析

CNCI(Coding-Non-Coding Index)是一种编码-非编码转录本区分工具,针对高通量测序之后得到的拼接转录本进行分析。该工具不依赖于已知的注释文件,根据相邻核苷酸三联体特征区分序列的编码和非编码潜能。

 pfam蛋白结构域分析

利用pfamscan工具对序列在pfam HMM库中进行蛋白结构域搜索,以筛除具有已知蛋白结构域的序列。同时使用Pfam-A和Pfam-B库,其中Pfam-A记录了大部分已知蛋白结构域、经过人工筛选,质量较高,而Pfam-B数据库则更加全面的覆盖了结构域家族,是对Pfam-A的补充。将转录本各个编码框上的蛋白序列与Pfam-A和Pfam-B数据库做hmmscan的同源搜索,能比对上的序列即为具有某个蛋白结构域的转录本,被认为具有编码能力,而比不到的转录本极有可能是非编码的转录本。

 phyloCSF分析

PhyloCSF(Phylogenetic Codon Substitution Frequency)根据转录本的多物种全基因组比对结果,计算该序列密码子替换频率CSF(Codon Substitution Freuqencies,指某密码子替换在多序列比对中的出现的频率,编码和非编码区的密码子替换频率比值是一个有效区分一段序列能否编码蛋白的方法),同时结合物种间系统进化树上的距离,对转录本的编码潜能进行打分。

 当然,目前一些顶级期刊上发表的论文也证明了non-coding RNA能够编码特定多肽【11,12】,甚至有观点认为lncRNA能够普遍编码蛋白【13】,“非编码”RNA的定义逐渐变得模糊。



4


lncRNA的调控机制验证


(1) RACE明确lncRNA序列 

无论是芯片或者测序,很多情况下,我们是不能完全确定有一条lncRNA的全长的。而lncRNA的序列信息,及其在一级结构基础上形成的空间结构,是决定其功能的重要基础。因此,我们需要对其全长进行确认。通常情况下,大家会通过3’RACE,5’RACE实验去确认其全长。有了全长信息,我们会对该lncRNA有更加清晰的认识。2017年有研究者将目标RNA捕获技术与三代测序技术相结合,对整个GENCODE数据库中人类和小鼠基因间区的lncRNA进行了重新注释,这部分全长序列信息相信对lncRNA的研究人员有非常高的价值【14】。

(2) lncRNA在细胞内的定位

虽然我们能够利用各种生物信息学手段推测lncRNA可能的调控机制,接下来还可以先通过lncRNA在胞内的定位,印证之前的生信分析是否成立。通过传统的实验手段便能够确认其细胞定位,来知道它主要在核内,还是在核外。如果是核内,那么,接下来考虑的作用方式可以就是染色质调控,转录调控(结合到启动子区,和某些转录因子互作,Pol II的抑制子……);如果是核外,那么,考虑的作用方式可能是转录后调控(影响mRNA的稳定性,影响mRNA翻译,作为miRNA的”sponge”……)。此外,一些数据库比如RNALocate也可以帮助我们了解lncRNA的定位信息。

RNA FISH技术原位检测lncRNA的定位【15】


(3) lncRNA与protein的结合

RIP,CLIP,RNA pull down等实验时也是验证RNA-Protein互作的常规手段。

 (4)lncRNA-protein与下游靶基因的结合

lncRNA-protein最终会结合到下游靶基因的promoter区,因此这种结合关系可以通过ChIP来验证。



5


lncRNA的上游调控因子


大多数研究关注在lncRNA下游调控机制,lncRNA的上游调控机制也是十分重要的,一方面可以通过对多种类型样本和实验条件下的CHIPseq进行数据分析,预测lncRNA上游转录因子,或者直接借助数据库(例如CHIPbase);另一方面也可以通过多组学联合分析的方法,比如用Illumina 850k芯片同时分析基因组上lncRNA上游区域的甲基化变化,从而建立DNA甲基化-lncRNA的调控关系。


6


lncRNA相关数据库


目前公开的lncRNA相关数据库资源非常丰富,但是各个数据库间的冗余、lncRNA命名方式的差异、ID号不统一等问题一定程度上给研究人员来带了诸多不便,这些问题有待解决。一些比较实用的数据库如下,可供参考。


7


lncRNA的功能研究


在经典遗传学理论中,无论是孟德尔染色体分离与自由组合定律还是摩尔根染色体连锁定律,基因和表型之间的关联性始终贯穿其中。在现代分子生物学的研究中,基因的表型往往影响了整个工作的完整性以及最终能够达到的水平。这一点对于反向遗传学而言更加如此。因此,基因表型的研究至关重要。肿瘤研究中,使用较多的表型研究策略包括RNA干扰以及最新的基因编辑系统CRISPR/Cas9系统

最近发展起来一种CRISPR干扰(CRISPR interference, CRISPRi)技术,将dCas9(核酸酶活性缺失的Cas9)和KRAB抑制结构域融合在一起,所产生的融合蛋白能够识别基因组上的靶位点,抑制基因表达而无需切割DNA。令人惊讶的是,有研究表明以这种方式沉默基因表达要比永久性地切割基因组具有更好的准确性和更高的效率。CRISPRi主要是在转录水平发挥作用,可以阻碍RNA的转录起始,也可以抑制RNA的延伸,取决于sgRNA设计在promoter附近还是exon上。由于CRISPRi作用于特定的位置,因此可以通过将sgRNA设计在lncRNA的特异性序列上,从而尽可能避免干扰lncRNA的同时影响附近mRNA的表达。当然,由于lncRNA与 mRNA的位置关系太过复杂,一些情况下仍难以单独敲降lncRNA而不影响mRNA表达,比如bidirectional 类型的lncRNA,或者 lncRNA的promoter与其它基因的promoter位置重叠或临近。类似的,如果将dCas9与一些转录激活域融合,则可以激活靶位点的转录,叫做CRISPR激活(CRISPR activation, CRISPRa),利用此技术可以实现对lncRNA的过表达。

CRISPRi技术原理示意图


参考文献

【1】Gutschner T, Diederichs S. The hallmarks of cancer: a long non-coding RNA point of view. RNA Biol 2012, 9(6):703-19.

【2】Schmitt AM, Chang HY. Long Noncoding RNAs in Cancer Pathways. Cancer Cell 2016, 29(4):452-463.

【3】Bartonicek N, Maag JL, Dinger ME. Long noncoding RNAs in cancer: mechanisms of action and technological advancements. Mol Cancer 2016, 15(1):43.

【4】Knauss J, Sun T. Regulatory mechanisms of long noncoding RNAs in vertebrate central nervous system development and function. Neuroscience 2013, 235:200-14.

【5】Liu Z, Li X, Sun N, et al. Microarray profiling and co-expression network analysis of circulating lncRNAs and mRNAs associated with major depressive disorder. PLoS One 2014, 9(3):e93388.

【6】Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008 ,9:559.

【7】Yang Y, Chen L, Gu J, et al. Recurrently deregulated lncRNAs in hepatocellular carcinoma. Nat Commun 2017, 8:14421.

【8】Li Z, Chao TC, Chang KY, et al. The long noncoding RNA THRIL regulates TNFα expression through its interaction with hnRNPL. Proc Natl Acad Sci U S A 2014, 111(3):1002-7.

【9】Wang Y, He L, Du Y, et al. The long noncoding RNA lncTCF7 promotes self-renewal of human liver cancer stem cells through activation of Wnt signaling. Cell Stem Cell 2015, 16(4):413-25.

【10】Paci P, Colombo T, Farina L. Computational analysis identifies a sponge interaction network between long non-coding RNAs and messenger RNAs in human breast cancer. BMC Syst Biol 2014, 8:83.

【11】Anderson DM, Anderson KM, Chang CL, et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell 2015, 160(4):595-606.

【12】Nelson BR, Makarewich CA, Anderson DM, et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science 2016, 351(6270):271-5.

【13】Ruiz-Orera J, Messeguer X, Subirana JA, et al. Long non-coding RNAs as a source of new peptides. Elife 2014, 3:e03523.

【14】Lagarde J, Uszczynska-Ratajczak B, Carbonell S, et al. High-throughput annotation of full-length long noncoding RNAs with capture long-read sequencing. Nat Genet 2017, 49(12):1731-1740.

【15】Atianand MK, Hu W, Satpathy AT, et al. A Long Noncoding RNA lincRNA-EPS Acts as a Transcriptional Brake to Restrain Inflammation. Cell 2016, 165(7):1672-1685.


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多