Freescience由浙江大学医学院几个硕博士发起创建,旨在最广泛分享有价值的科研技能和知识;FreeScience的宗旨:“科学自由分享、人人平等,共求真理”。 先来解答下上期几个问题,首先文章中用到了芯片或测序数据一般杂志都要求上传原始数据到公共数据库,只有生成一个数据集编号才能发表文章。当然如果别人发表的文章用到了你的数据,那必须要引用你的编号。所以有些数据集未见其对应的发表文章,是因为上传者的文章还在审稿中。那么文章在审稿中还没有发表前,会不会有别的团队下载数据抢在你之前发表文章呢?这个问题其实也不用担心,因为在上传数据后可以设置一个保护时间,在这个保护时间内是不对外公布的。其次,别人下载你的数据一般用于整合分析或进一步验证和补充其研究内容,所以一般不会影响你文章发表。我们继续还原开篇文献(PMID: 25712376)的分析流程,当我们收集和整理完数据集后如何解读其信息和下载哪些数据用于分析? 这是文中最终纳入的三个研究: 分析中发现文章一个笔误:GSE35396应为GSE35306。一般用于后续分析要收集三个文件: 1.基因表达数据, 2.平台注释文件, 3.实验设计即样本分组信息。 1.基因表达数据√原始数据 cel或txt √矩阵数据 txt 2.平台注释文件 txt 3.实验设计即样本分组信息以GSE35306数据为例。 其中平台注释信息的页面。
这样一个研究所有要用到的数据就收集完成了,用于下一步的分析。 (1)首先解释下芯片的原始数据。cel文件是affy芯片公司平台的检测后产生的原始文件,而txt文件则是Agilent公司产生。这两家公司是全球最大的芯片公司,而我国还没有自主开发的基因芯片检测仪器和平台,国内都是这两家公司的代理商,所以钱都被国外赚走了。 (2)矩阵数据txt是标准化后的基因表达数据。行就是代表一个样本编号,列就是代表一个探针号。值就是表达信号值,一般是取对数的(以免值太大)。
(4)样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。 这期就到这里,下期将对这些收集好的数据进行分析,一步一步还原出分析过程。 本期也有几个思考问题: 1.有些芯片是miRNA芯片或着作者没有上传原始数据,下载不到原始数据怎么办? 2.矩阵文件中的表达信号值怎么判断是否取了对数? 3.有些样本信息不明确,例如样本信息标注是胆管癌可没有明确是肝内胆管癌,怎么办? |
|