分享

(三)零基础大数据挖掘实例讲解——找差异分子案例实践

 微笑如酒 2017-01-11

Freescience由浙江大学医学院几个硕博士发起创建,旨在最广泛分享有价值的科研技能和知识;FreeScience的宗旨:“科学自由分享、人人平等,共求真理”。

     先来解答下上期几个问题,首先文章中用到了芯片或测序数据一般杂志都要求上传原始数据到公共数据库,只有生成一个数据集编号才能发表文章。

      当然如果别人发表的文章用到了你的数据,那必须要引用你的编号。所以有些数据集未见其对应的发表文章,是因为上传者的文章还在审稿中。

      那么文章在审稿中还没有发表前,会不会有别的团队下载数据抢在你之前发表文章呢?

      这个问题其实也不用担心,因为在上传数据后可以设置一个保护时间,在这个保护时间内是不对外公布的。

      其次,别人下载你的数据一般用于整合分析或进一步验证和补充其研究内容,所以一般不会影响你文章发表。

      我们继续还原开篇文献(PMID: 25712376)的分析流程,当我们收集和整理完数据集后如何解读其信息和下载哪些数据用于分析?

      这是文中最终纳入的三个研究:

   

     分析中发现文章一个笔误:GSE35396应为GSE35306。

      一般用于后续分析要收集三个文件:

      1.基因表达数据,

      2.平台注释文件,

      3.实验设计即样本分组信息。

  1.基因表达数据

    原始数据 cel或txt

    矩阵数据 txt

  2.平台注释文件 txt

    3.实验设计即样本分组信息以GSE35306数据为例。

   其中平台注释信息的页面。


      收集这三部分数据:


      这样一个研究所有要用到的数据就收集完成了,用于下一步的分析。

     (1)首先解释下芯片的原始数据。cel文件是affy芯片公司平台的检测后产生的原始文件,而txt文件则是Agilent公司产生。这两家公司是全球最大的芯片公司,而我国还没有自主开发的基因芯片检测仪器和平台,国内都是这两家公司的代理商,所以钱都被国外赚走了。

     (2)矩阵数据txt是标准化后的基因表达数据。行就是代表一个样本编号,列就是代表一个探针号。值就是表达信号值,一般是取对数的(以免值太大)。


       (3)平台注释信息,就是所有探针号对应的注释信息,你要知道这些探针号代表的基因是什么,否则怎么筛选出差异基因。

      (4)样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。

     这期就到这里,下期将对这些收集好的数据进行分析,一步一步还原出分析过程。

    本期也有几个思考问题:

    1.有些芯片是miRNA芯片或着作者没有上传原始数据,下载不到原始数据怎么办?

    2.矩阵文件中的表达信号值怎么判断是否取了对数?

    3.有些样本信息不明确,例如样本信息标注是胆管癌可没有明确是肝内胆管癌,怎么办?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多