《数据挖掘实验报告》实验一院系:信息管理学院专业:信息管理与信息系统班级:二班姓名:聂雪玲学号:202134000314任课教师:徐爱琴实验 目的使用python对数据进行缺失值分析,异常值分析,一致性分析,值分析,,对数据绘制直方图,对数据进行统计量计算,以及规范化和离 散化处理,掌握各类库方法的使用。实验内容生成数据集,对数据进行具体的分析处理。源代码及结果一、缺失值运行结果:二、异常值处理运行结 果:三、一致性分析四、值分析五、直方图与频率图运行结果:六、统计分析运行结果:七、数据规范化运行结果:八、数据离散化运行结果:结果 分析1在进行缺失值分析前先导入pandas,numpy库,创建一个含有缺失值数据的数据集。使用isnull( )方法来分析缺失值, 缺失值位置显示True,没有的位置显示False;any()方法查看含有缺失值的列;all()方法查看全部都是缺失值的列;drop na()方法删除含有缺失值的行2、导入pandas库,并生成一个含有异常值的数据集。异常值处理之前先将源数据集复制一份,因为之后的 标准化操作会覆盖源数据,所以需要备份,对复制的数据的每一列数据进行标准化操作,计算两列数据的均值和标准差,并将标准化后的数据打印。 制定一个筛选标准,对原数据进行筛选,标准化的数据绝对值越大,说明偏离越大,异常概率更大。mean()方法计算均值;std()方法计 算标准差3、导入hashlib库,实验生成一个md5对象,将传入的文件路径打开,使用文件内容对md5更新,然后将两个文件的md5值 进行比较,相同输出True,不同输出Falsef.read():读取全部文件内容;(f.readline()每次只读取一行;f.r eadlines()也是读取全部内容,但结果是list,每行内容是一个元素)updata()方法:更新数据hexdigest()方 法:返回摘要,作为十六进制数据字符串值4 Series方法可以统计重复值,以及重复值的重复次数;isna()方法判断数据是否为空数 据;5、pyplot.hist()方法对数据绘制直方图,参数包括数据、矩形柱数量、横坐标范围、直方图类型、矩形宽度使用xlabel 、ylabei、title三个方法设置横轴标题、纵轴标题、表标题,sort()方法排序,默认从小到大;show()方法显示图;五、 实验总结导入pandas、numpy库随机生成三组数据,对各组数据进行统计量计算,统计量计算公式有:总x.count()、最小值x .min()、最小值位置x.idxmin()、25%分位数x.quantile(.25)、中位数x.median()、75%分位数 x.quantile(.75)、均值x.mean()、最大值x.max()、最大值位数x.idxmax()、平均绝对偏差x.mad ()、方差x.var()、标准差x.std()、偏度x.skew()、峰度x.kurt();最小-最大规范化x=(x-min)/ (max-min)均值规范化x=x-/σ小数定标标准化x=x/离散化常用等宽法、等频法、基于聚类分析的方法。 |
|