分享

疾病特征基因筛选

 生物_医药_科研 2018-12-18


研究背景:

基因芯片数据在临床诊断中正在占据越来越重要的地位。DNA基因芯片技术为生物学和医学研究带来前所未有的机遇的同时,其产生的海量和复杂的基因芯片数据却对现有的数据处理和分析方法提出了巨大挑战,原因如下:第一,基因芯片数据具有高维度(基因),通常是几千或几万维,而这些基因维度之间又有非常复杂的关系。第二,复杂的实验和昂贵的费用导致基因芯片数据只有较少的样本,通常是几十或上百个,与巨大的基因数目构成不平衡的矛盾,这种矛盾造成大多数经典的模式识别和机器学习方法不能被直接应用。第三,基因芯片数据天生具有高噪声等数据分析难点;第四,基因芯片数据中许多有用变量被隐藏。这就需要应用概率统计方法来挖掘出这些潜在的生物信息。Golub等人于1999年利用白血病基因芯片数据成功进行基因识别和癌症诊断与分类以来,基于DNA基因芯片技术的癌症研究己被人们所广泛接受并日益成为生物信息学研究的热点之一。

从癌症研究角度分析,目前癌症基因芯片数据分析主要集中在癌症关键基因识别、癌症诊断与分类和癌症亚类型分类等三个方面。癌症关键基因识别就是寻找和发现与癌症发生、恶化和转移等病理有着重大关系的致癌基因群,也被称为癌症关键基因选择,是癌症研究的重点。传统癌症诊断和分类方法是根据肿瘤的组织形态来进行诊断和分类的。然而,这种方法有着严重的缺陷,人们通过对癌症病理机制的深入研究及临床经验的积累,发现诊断相同癌症的结果却可以用不同的治疗方法,有着不同的治疗效果,这需要从基因分子层面进行研究。基于癌症基因芯片的诊断和分类的重点是根据基因表达水平设计分类器以便对癌症进行更精确的诊断和分类。在传统的癌症分类策略还有许多癌症可能具有未发现的亚类型,而这种亚类型只在基因分子层面上才能定义,根据癌症基因芯片对癌症亚类型进行划分的被称为癌症子类型分类。

分析流程:

1. 首先我们对表达谱数据进行预处理即标准化

2. 基于分布特征的简单过滤:

利用中位数和四分位距IQR来绘制基因的分布。

从图中看出,很大部分的基因IQR值变动很小,如果一个基因在所有样本上变动很小,就意味着他不能很好的区分样本,需要剔除掉。

2. 剔除那些IQR值小于总体IQR 1/4的那些基因

去掉了一部分波动较小的基因,但是比起来我们的观察样本22个来说这些基因数目还是太大了。

3. ANOVO过滤

如果一个基因的表达水平的分布在目标变量的所有可能值上类似,则可以确定这个基因无助于区分这些样本。

4.随机森林进行过滤

尽管从ANOVA过滤得到的表达水平矩阵的变量个数还是多于观测值的个数,但是这已经在可以建模的范围内了,我们尝试进一步减少特征的个数,从而得到更具有标准维数的数据集,我们用随机森林的方法得到变量对分类任务的有用程度的排序。

# 筛选的是前30个基因:

从结果中可以观测到,不同类型突变的基因的中位数表达水平的区别,也给出了这些基因用于分类的区分能力.

5. 下面用图形的方式检查这些样本的具体基因表达水平的值

6. 文献挖掘特征基因中的关键基因

对我们获取的特征基因中筛选一个关键基因,例如我们利用p53的一个下游基因EGFR作为一个关键基因,计算其他基因与他的表达相似性(可以利用pearson相关系数法),根据对调控通路内基因相关性的研究,同一通路内的基因在表达模式上具有一定的相似性,即它们具有一定的共表达趋势,因此可以将基因EGFR作为其通路的核心,在筛选出的肿瘤特征基因集合中寻找与之在表达模式上有较大相关性的基因,建立对应于特定调控通路的特征基因集合。如果两个基因之间的相关系数为1.0-1.0,说明这两个基因的表达模式吻合得很好;如果相关系数接近0,表明这两个基因没什么相关性。

7. 利用贝叶斯网络挖掘特征基因与关键基因的通路调控关系

利用RDeal包构建贝叶斯网络。Deal中的随机变量分布采取条件高斯分布Conditional GaussianCG)分布,由于可能生成的有向无环图(DAG)的数量随节点数呈指数上升,因此在所有可能的图中寻找最高分值的图是NP问题,只能用启发式算法获得优化结果。Deal在这里所采用的是贪婪搜索(greedysearch)法。获得的通路特征基因调控关系图:

实线箭头表示已被实验文献验证的调控关系,点划线箭头表示预测调控关系与实验验证结果相反。需要查询多种文献来进行验证。

 

分析流程图:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多