分享

不做实验SCI论文发发发系列之——转录因子调控网络

 yjt2004us 2017-11-18

今天应该是本系列文章的第三篇了,不知大家有没有视觉疲劳?咳咳,当然了,本宫也就是礼貌性地问一问,此类文章还有许多,写还是会写的。


今天的文章是'MicroRNA and Transcription Factor Gene Regulatory Network Analysis Reveals Key Regulatory Elements Associated with Prostate Cancer Progression',发表在PLOS ONE上(此杂志本宫就不多作介绍了),作者都是歪国仁,单位以伊朗的为主,还有印度的和土澳的,估计是伊朗的人去那俩地方留学,别问本宫为何知道的辣么多~


言归正传,本文研究的是前列腺癌,用的样本是对应的非癌样本以及转移非转移3组样本,主要方法是构建miRNA、mRNA与转录因子(TF)的调控网络,来揭示比较癌症转移和非转移组中的Keg基因。


下面介绍一下文章的主要思路和方法


1、GEO数据集获取和差异基因筛选


这也算是老套路了,作者选取的数据集是GSE21032,这个数据集是个很大的数据集,作者从218个样本中挑选出139个miRNA和mRNA均有数据的样本进行分析。差异基因的筛选标准也是P<0.05和log(fc)的绝对值>1,这部分可以直接用GEO2R分析再用EXCEL简单处理即可,小张之前也介绍过。最终,作者在原发癌组、转移组中分别筛选出下图所示的差异miRNA、mRNA以及TF,当中有一些有交集,有一些没有完全没有交集(比如上调的TF)。


2、生物学功能分析


作者对差异mRNA进行了GO分析,利用的工具是Cytoscape的插件BiNGO。通过下列的网络图简单地阐述了疾病与相关生物学功能的关系。


3、TF调控网络分析与miRNA调控网络分析


TF与基因的关系通过TRANSFAC数据库获取,这个数据库是TF数据库中公认的比较好用的数据库,然而不是一个完全免费的数据库,免费使用只能使用截止到05年的数据,如果在高校中有条件的童鞋,可以试试这个数据库。获取了TF-mRNA配对的相关数据之后,再在芯片数据中分析TF与mRNA的相关性(利用皮尔森相关性系数)。miRNA与基因的关系如何预测想必大家应该比较熟悉了,之前的文章中已经介绍了许多miRNA相关的数据库,作者用了MirTarbase、miRanda和TargetScan三个数据库来预测miRNA与mRNA的作用关系。同样的,作者利用表达相关性进行进一步筛选以降低假阳性率。

网络构建好了,key基因如何筛选?本文中作者主要应用了两个网络拓扑结构参数,一个就是之前常说的degree,另一个是中介中心性(Betweeness Centrality),这是一个网络中地位重要性的图论概念,简单的说就是中心性越高表示该节点在网络中的重要性越高。这两个参数利用Cytoscape的CentiScape插件都可以轻松搞定。


4、生存分析


最终作者筛选出两个关键的转录因子HOXD10和PGR,并运用生存分析进行验证,结果表明这两个转录因子确实在前列腺癌的转移过程中起到了重要作用。


小结:利用数据库或者软件预测出来的结果往往会出现假阳性,比如说TRANSFAC数据库对转录因子的预测,是基于Bind Sites的预测,Bind Sites位于Gene的调控区内,是很短的一段序列,与转录因子结合,调控基因转录,由于Bind Sites本身太短,所以特异性较差,预测出来的结果可能很多都是假阳性的,所以我们要通过进一步的筛选,比如文章中用的基因表达的相关性分析网络拓扑结构分析等等来降低假阳性率,最后再通过生存分析验证,让整个文章的结果有理有据让人信服。其它的数据库比如miRNA靶基因的预测,我们往往需要用多个数据库的结果取交集,也同样是为了提高数据的可信度。

最后说一下科研手册——生信特辑的事,获取方式为:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多