分享

【数据挖掘案例】基于构建ceRNA调控网络筛选膀胱癌相关的特征生物分子

 LIU_laoshi2011 2019-08-01
膀胱癌是一个重要的公共问题,在世界范围内,膀胱癌的发病率居恶性肿瘤的第九位,是最常见的泌尿系肿瘤 [1]。膀胱癌的发生是遗传和环境因素长期相互作用的结果涉及到多因素作用多基因改变和多阶段致癌的复杂过程[2]。
近年来越来越多的证据表明,长链非编码RNA (long non-coding RNA,lncRNA)与miRNA及其下游靶基因之间的相互调控模式与肿瘤的发生发展密切相关,已成为肿瘤研究领域的一大热点。miRNA作为一个转录后调控的重要因子,其活性可被lncRNA 通过海绵吸附的方式调控,此类lncRNA 又被称为竞争性内源RNA(competing endogenous RNA,ceRNA) [3]。LncRNA作为ceRNA竞争性地与miRNA结合,从而调节编码基因的蛋白质水平,参与调控细胞的生物学行为然而对于在肿瘤中发挥ceRNA功能的lncRNA目前仍知之甚少[4,5]。本文结合膀胱癌lncRNA、miRNA和mRNA表达谱,筛选与膀胱癌相关的生物分子,通过构建ceRNA调控网络挖掘膀胱癌相关的肿瘤标志物。
分析流程图如下:

1. 数据样本及注释

2018年12月19日 :从TCGA数据库(https://gdc-portal.nci./) 中下载膀胱癌(BladderCancer)mRNA和miRNA样本,分别共有样本430和432个样本。通过样本barcode信息对应后,最终得到配对的mRNA和miRNA样本共423个,其中404个膀胱癌肿瘤样本,19个正常对照样本。然后在RNA-seq表达谱中,利用HUGO Gene Nomenclature Committee (HGNC)[6](http://www./)数据库中收录的4055个lncRNA和19198个protein coding gene识别RNA-seq表达谱中检测到的lncRNA和mRNA。

 
2. 显著差异表达RNAs的筛选

按照血液样本来源信息,在lncRNA、miRNA和mRNA将样本分成膀胱癌肿瘤和正常对照样本组,然后利用R3.4.1语言中的Limma 包Version 3.34.0 [7](https:///packages/release/bioc/html/limma.html)计算比较组间RNA表达差异性FDR值和表达Fold Change值,选取FDR值<0.05且|logFC|>5作为筛选显著差异表达RNA的阈值。然后基于筛选得到的RNAs的表达水平,利用R3.4.1语言中pheatmap 包Version 1.0.8 [8] ( https://cran./package=pheatmap)对表达值进行基于欧几里得距离的双方向层次聚类[9,10],并用热图进行展示。

随后对筛选得到的RNA中的coding RNA进行基于DAVID 6.8(https://david./)[11,12]的GO生物学过程和KEGG信号通路显著富集分析,筛选与显著差异表达编码基因显著关联的GO生物学过程和显著参与的KEGG通路,选取FDR值小于0.05作为显著性阈值。

 
3. ceRNA网络的构建

生物网络体现了基因之间或者基因与其他功能或通路之间的相互联系,通过网络分析可以发现基因影响生物体的协助脉络,并能在复杂的作用链条中,系统地挖掘基因发挥作用的真实线索。现已发现,基因的转录后调控并不是简单的microRNA-mRNA的沉默机制,而是一个复杂的调控网络:很多非编码RNA分子富含microRNA结合位点,在细胞中起到miRNA海绵(miRNA sponge)的作用,进而解除miRNA对其靶基因的调控作用,改变靶基因的表达水平,这一作用机制被称为竞争性内源RNA(ceRNA)机制[13,14]。而在ceRNA机制中,lncRNA是最典型的miRNA海绵吸附体[15]。因此,我们通过以下几个步骤对lncRNA、miRNA和mRNA进行关系构建:

A. lncRNA-miRNA连接关系构建

lncRNA作为一种竞争性内源RNA与miRNA之间相互调控,共同参与调控靶基因的表达调控,并在疾病的发生和发展中发挥着重要的作用。我们通过DIANA-LncBasev2(http://carolina.imis./diana_tools/web/index.php?r=lncbasev2%2Findex-experimental)[16] 数据库信息搜索显著差异表达的lncRNA和miRNA之间的结合连接关系,同时只保留连接关系中二者表达差异方向相反的连接对,以此构建lncRNA-miRNA连接网络,并通过Cytoscape Version 3.6.1(http://www./)[17] 对网络进行可视化展示。

 
B. miRNA-mRNA调控连接关系

MiRNA是一类在转录后水平调控基因表达的非编码RNA小分子,成熟的miRNA的长度在22nt左右,通过作用于相应的靶mRNA的3’UTR,下调基因的表达。miRNA与靶mRNA形成了一个复杂的调控网络,在细胞增殖、凋亡、分化、代谢、发育等多种生物学过程中发挥着重要的作用,因此探讨miRNA与靶mRNA的相互作用有助于更好的理解其作用机制、了解基因间的网络调控关系。本文利用starBase Version 2.0数据库[18](http://starbase./)

对①中与lncRNA连接的miRNA所调控的靶标基因进行搜索,StarBase数据库同时综合提供了来自targetScan、picTar、RNA22、PITA和miRanda五大数据库的靶基因预测信息,我们选取至少被其中两个数据库所收录的调控关系作为目标miRNA调控靶基因关系对,并将之前筛选得到的显著差异表达的mRNA对应到差异miRNA调控的靶标基因中,且只保留miRNA和mRNA表达显著差异方向相反的作用对,构建miRNA-mRNA调控关系连接,网络通过Cytoscape Version 3.6.1[17]进行可视化。

综合①和②中lncRNA-miRNA、miRNA-mRNA进行综合整理,并构建由lncRNA-miRNA- mRNA组成的ceRNA调控网络,并对ceRNA调控网络中的被调控靶标基因进行。

基于DAVID 6.8 [11,12]在线软件的GO生物学过程和KEGG 信号通路富集注释(选取FDR值小于0.05作为显著性阈值)。

 
4. 筛选与预后相关的mRNA、miRNA和lncRNA
提取出ceRNA调控网络节点中包含的mRNA、miRNA和lncRNA在数据集合中的表达值和每个样本对应的生存信息,利用R语言中survival包[4](Version:2.40-1,https://cran./package=survival)中的单因素cox分析筛选预后的显著相关的RNA分子,并对预后相关的节点ceRNA调控网络部分单独提取出,对其中的重要节点进行Kaplan-Meier生存曲线分析及作图。



如果您想学习相关的分析操作,可以来参加我们下面这个学习班:

非编码RNA数据分析与ceRNA网络构建学习班

广州班:2019/08/10-11 (09日报到)    

广州南洋长胜酒店



学习班简介
培训目的

    非编码RNA(miRNA、lncRNA、circRNA等)是生物医药领域非常重要的一种调控分子。众所周知,非编码RNA虽然不参与蛋白编码不能直接行使功能,但是它可以通过多样化的调控方式参与众多的通路和生物过程。目前,非编码RNA的研究是主流的创新研究思路,也是国家自然科学基金等鼓励申报的重要领域。因此,我们研究设计了这次非编码RNA分析与设计培训班,通过集中和系统的学习,可以掌握非编码RNA分析与设计相关的数据库、在线工具、本地软件的使用以及非编码RNA的创新思路设计。

    如果您是从事医学、动物、植物学等生物学方向的科研工作者(学术),无需有工具操作和编程语言基础,都可以来参加本次培训班。

培训预期

    通过整整两天的培训,掌握非编码RNA相关数据库/工具的使用、分析思路和实用操作知识点,设计贴合自身研究课题的方案。

课程安排


示例图  高通量数据处理与VENN分析图

示例图  ceRNA网络图

示例图  非编码RNA调控网络及功能富集分析(pathway) 

示例图  共表达分析散点图

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多