配色: 字号:
202134000314 聂雪玲实验一
2023-10-19 | 阅:  转:  |  分享 
  
《数据挖掘实验报告》实验一院系:信息管理学院专业:信息管理与信息系统班级:二班姓名:聂雪玲学号:202134000314任课教师:徐爱琴实验
目的使用python对数据进行缺失值分析,异常值分析,一致性分析,值分析,,对数据绘制直方图,对数据进行统计量计算,以及规范化和离
散化处理,掌握各类库方法的使用。实验内容生成数据集,对数据进行具体的分析处理。源代码及结果一、缺失值运行结果:二、异常值处理运行结
果:三、一致性分析四、值分析五、直方图与频率图运行结果:六、统计分析运行结果:七、数据规范化运行结果:八、数据离散化运行结果:结果
分析1在进行缺失值分析前先导入pandas,numpy库,创建一个含有缺失值数据的数据集。使用isnull( )方法来分析缺失值,
缺失值位置显示True,没有的位置显示False;any()方法查看含有缺失值的列;all()方法查看全部都是缺失值的列;drop
na()方法删除含有缺失值的行2、导入pandas库,并生成一个含有异常值的数据集。异常值处理之前先将源数据集复制一份,因为之后的
标准化操作会覆盖源数据,所以需要备份,对复制的数据的每一列数据进行标准化操作,计算两列数据的均值和标准差,并将标准化后的数据打印。
制定一个筛选标准,对原数据进行筛选,标准化的数据绝对值越大,说明偏离越大,异常概率更大。mean()方法计算均值;std()方法计
算标准差3、导入hashlib库,实验生成一个md5对象,将传入的文件路径打开,使用文件内容对md5更新,然后将两个文件的md5值
进行比较,相同输出True,不同输出Falsef.read():读取全部文件内容;(f.readline()每次只读取一行;f.r
eadlines()也是读取全部内容,但结果是list,每行内容是一个元素)updata()方法:更新数据hexdigest()方
法:返回摘要,作为十六进制数据字符串值4 Series方法可以统计重复值,以及重复值的重复次数;isna()方法判断数据是否为空数
据;5、pyplot.hist()方法对数据绘制直方图,参数包括数据、矩形柱数量、横坐标范围、直方图类型、矩形宽度使用xlabel
、ylabei、title三个方法设置横轴标题、纵轴标题、表标题,sort()方法排序,默认从小到大;show()方法显示图;五、
实验总结导入pandas、numpy库随机生成三组数据,对各组数据进行统计量计算,统计量计算公式有:总x.count()、最小值x
.min()、最小值位置x.idxmin()、25%分位数x.quantile(.25)、中位数x.median()、75%分位数
x.quantile(.75)、均值x.mean()、最大值x.max()、最大值位数x.idxmax()、平均绝对偏差x.mad
()、方差x.var()、标准差x.std()、偏度x.skew()、峰度x.kurt();最小-最大规范化x=(x-min)/
(max-min)均值规范化x=x-/σ小数定标标准化x=x/离散化常用等宽法、等频法、基于聚类分析的方法。
献花(0)
+1
(本文系zt5phwyy9yn...首藏)