分享

统计软件中的数据录入格式 - 数据挖掘工具( Data Mining Tools)

 涵灵韵清扬 2008-10-21

统计分析是科研中的必要环节,统计软件则是进行统计分析的利器。但是,在计算机已逐渐普及的今天,统计软件却仍让人感到几分神秘:除了大型统计软件都还没有中文版这一原因,统计软件在许多小的方面也有自己的特点,往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题--数据录入格式。 数据挖掘论坛

简言之,我们平时往往用表格的形式来记录数据,这并无不妥。问题在于当进行统计分析时,如果我们直接将数据按平时记录的格式来进行分析,那就很可能不得其门而入--因为大多数统计软件对数据格式都有着特定的格式要求,下面我们就举一些常见的情况来解释这一问题。

 

1. 单组或多组数据  平时我们多记录成" 第1组、第2组、第3组... " 等等,如表一左侧所示。样本含量相等或不等。主要用于成组资料比较的t、F或秩和检验等。这种记录格式姑且称为统计表格格式,在各种统计软件中,该数据通用的分析格式如表一右侧所示,我们把这种格式称为统计分析格式。 数据挖掘论坛

表 一
①统计表格格式 数据挖掘实验室

②统计分析格式 数据挖掘论坛

1 , 0.1
1 , 0.2
1 , 0.3
2 , 0.4
2 , 0.5
3 , 0.6
3 , 0.7
3 , 0.8
3 , 0.9
数据挖掘研究院

看出来区别了吗?统计分析格式中第一列为“分组变量”,指示所在的组号;第二列为原始数据。现在再回到SPSS等统计软件的菜单去,做one-way ANOVA(成组的方差分析)知道怎么选变量了吧!

 

2. 配伍组数据   平时的记录格式同上面相似。主要用于配伍组资料比较或秩和检验等。见表二:

 

表 二
①统计表格格式

数据挖掘实验室

 

②统计分析格式 数据挖掘交友

1 , 1 , 0.1
1 , 2 , 0.2
2 , 1 , 0.3
2 , 2 , 0.4
3 , 1 , 0.5
3 , 2 , 0.6

数据挖掘工具

 

统计分析格式中第一列为“第一分组变量”,指示所在的组号;第二列为“第二分组变量”,指示在该组的序号,第三列为原始数据; 数据挖掘工具

3. 单组成对数据  变量名分别为:X、Y,要求样本含量相等。主要用于配对计量资料比较的t、秩和检验;直线回归与相关;曲线拟合等,格式见表三。 数据挖掘实验室

表三
①统计表格格式 数据挖掘工具

②统计分析格式

数据挖掘交友

 

0.1 , 0.4
0.2 , 0.5
0.3 , 0.6
数据挖掘研究院

两种格式没有区别,但请注意,如果配对资料转用方差分析来处理,则相应的也要变换格式。 数据挖掘实验室

4. 多组成对数据 主要用于协方差分析,格式见表四。

数据挖掘论坛

 

表 四
①统计表格格式

数据挖掘交友

 

②统计分析格式 数据挖掘交友

1 , 0.1 , 0.3
1 , 0.2 , 0.4
2 , 0.5 , 0.8
2 , 0.6 , 0.9
2 , 0.7 , 1.0
数据挖掘研究院

在统计分析格式中,第一列为对子组号,第二列与第三列分别为该组的对子X、Y

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多