分享

利器侍之,当生信技能与基础科研联姻

 yjt2004us 2018-06-04

生信研究分析套路的基本修炼法则。



第18策“利器侍之”是《三十六策》第三章“始制有名”的最后一讲,也是整个《三十六策》上半部分收官的一策,主要讲解的是生物数据库和生物信息学软件在基础科研中的应用,并会传授如何利用生信工具的思路。

1

通常生信学习有三种境界:


境界一:专业级选手研究各种算法和架构数据模型,精通至少一种编程语言,比如现在比较流行的Python语言等;


境界二:R语言专门用于统计分析和作图,且提供很多代码现成的数据包(package),因而掌握好R可成为一名生信的资深爱好者


境界三:若是仅把生信分析当做辅助手段,如仅使用现有的在线数据库和软件工具,即一般的业余水平


因为仅仅由生信分析所得的数据在层次上比较单薄,还须“干湿结合”,即与细胞、分子、动物的数据相配合才能形成完整的story。其实科研界把纯生信研究策略称为“干实验”,而把细胞分子生物学研究称为“湿实验”


通常生信技能配合基础研究主要有两种应用场景


1)筛、猜获取主变量(靶分子)时,可通过在线的数据库对别人用过的高通量数据进行二次挖掘,实现数据的再利用;


2)已知主变量找机制的因变量时,也可用工具和数据库筛、猜机制,找出与靶分子相关的通路或下游分子,构建调控网络,把复杂的信息可视化为一张信号通路图。因而掌握一些必要的数据库和软件使用也是当前形势下做基础科研的基本功。

2

由于临床研究、基础研究和生信分析各自成体系,因而即便是生信领域最简单的数据库使用也很难一下子上手。其实,掌握数据库的诀窍很简单:把每个能点的按钮都点一遍,把界面里不懂的单词搞懂,一个数据库差不多就会用了。


通常所有数据库可以按用途分为以下4类:


1)凡是跟基因、非编码RNA分子序列或者功能注释相关的数据库,统称为信息数据库,其使用最为简单,如NCBI的Genebank、Nucleotide,查基因信息的Genecards,查miRNA序列的miRBase,查lncRNA的noncode,还有UCSC、Ensenbl查启动子区域信息,ORF Finder分析一段序列是否编码蛋白,CpG Finder找CpG岛位置等等。在需要确定靶分子或检测已确定靶分子的表达水平时,即可查询信息数据库。


2)通路数据库中最经典的有三个:KEGG,DAVID和GSEA,这类数据库主要功能是聚类,把分子按照功能表型进行了特征归类,可获取高通量数据中跟已知特征相关的变化分子,还可根据已知的分子间调控关系构建调控网络以及其中的关键节点(Hub gene),进而可对关键分子进行干预实验,做到有的放矢。


3)分子互作数据库,可预测分子与分子间相互作用,即直接作用机制。比如miRNA预测靶基因的Targetscan,预测转录因子靶基因的JASPAR和TRANSFAC(基于真实实验数据),预测lncRNA与miRNA结合的Starbase,蛋白与蛋白相互作用预测的String等,各种分子类型相互作用都有数据库可以用。


通常预测相同分子的交互作用的数据库会有若干个,且其背后的算法逻辑和用法都有些差别。其实没必要每个都研究,解螺旋课程里所推荐的已都是公认好用的,大家可放心使用。


另外,一些商业公司的网站往往也提供一些工具,比如QIAGEN公司提供了CHIP实验后qPCR验证的预设计引物、可结合的转录因子以及结合位点;SIGMA公司则免费提供了所有基因的shRNA设计序列。


4)样本数据库,可以别人的数据发自己的文章。典型的有GEO(Gene Expression Omnibus,NCBI的子数据库),存储了全世界最大、最全面的基因表达谱数据,是个数据仓库。它既允许研究者上传自己的数据,也可以免费下载别人的高通量检测原始数据。如此避免了高通量重复筛选,以免浪费资源。


各种常见疾病还有自己的样本数据库,比如做肿瘤的还有TCGA、Oncomine、SEER,都允许我们根据自己感兴趣的问题下载高通量数据,经过二次分析产生新的结论,发表论文。


一般可通过数据库的索引目录就可寻找某疾病领域里的专用数据库:


a.牛津大学出版社的核酸研究杂志(Nucleic Acids Research,NAR),自1994年起每年发布更新数据库特辑(database issue),其中包含了15个分类的数据库目录,其中有一个就涉及按疾病找数据库。


b.数据库索引网站Omictools(网址:https:///),直接提供关键词搜索功能,也可以按分类搜,每个数据库都有网址和简单介绍。不过数据库如果有超过5年没有更新,能否可用需要多加注意。

3

在数据挖掘的过程中,统计方法可谓如影随形。通常研究者会建立多靶标的统计预测模型,即将多个靶标根据评分组成多维度的分子预测模型


样本数据至少会被随机分成两份:1)训练集(Training set),以多的数据集建立预测模型;2)测试集(testing set),以另一个数据集测试模型。还可加上验证集(validation set),以第三份样本或者是自己的样本做外部独立验证,由此证明模型的有效性。


此外,还可用DAVID、KEGG和GSEA数据库把一定相关性的一组分子进行聚类分析,做分子网络。总之纯生信套路本质上是利用数据库下载的高通量结果进行统计分析处理,再套用交互网络的数据套路,并对各种分析手段进行融会贯通。


通常这套干的研究策略一共包含4个技能分支:


1)系统搜索资料和荟萃分析。针对某一个问题,通过同一个技术平台或者统计手段使所有已有的高通量数据的表达值标准化,让不同研究项目之间的数据可以进行整合比较,提高严谨性。


2)用R语言或相关工具把数据库里下载的高通量数据转换到差异分子列表。


3)掌握临床相关性的统计分析方法,如单因素,多因素,COX、logistic回归,Pearson、spearman相关系数等。


4)掌握通路分析工具。

4

要把一个满足单变量有表型、数据有细胞也有动物的课题深入发展成一个多元变量的高水平文章,有3个方面的加分项可选:


1)通过对数据库里的样本资料进行生信分析得到获取靶分子的理由。一般干湿结合是指从干的生信分析到湿的细胞、动物验证,其实也可先有了功能分子,然后反向往上找数据库验证,增加数据的说服力。


2)可以结合临床资料进行分层分析,如生存预后数据可以显著提升项目的临床意义,增加文章价值;


3) 深挖文章分子相互作用机制。干湿结合之所以成为一种科研的趋势,是因为它确实给基础研究带来了解构问题的全面角度。


基于分析预测和实验验证是密不可分的整体,在做通路或研究分子调控关系时,可用一些数据库预测和进行网络构建;此外直接靶点的预测也可用到数据库,再加上经典实验验证。


目前36策前三章的内容主要梳理了基础科研的六个思维递进层次:第一层,识别恒量套路,

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多