Python案例｜使用Scikit-learn进行房屋租金回归分析

新用户62659642 2023-07-28 发布于湖南

展开全文

回归分析是一种预测性的建模技术，研究的是因变量（目标）和自变量（预测器）之间的关系。回归分析是建模和分析数据的重要工具。比如预测股票价格走势、预测居民收入、预测微博互动量等等。常用的有线性回归、逻辑回归、岭回归等。本文主要使用线性回归。

案例导入：房屋租金回归分析

本文使用的租房数据集是经过前一篇数据预处理后的“北京链家网”租房数据集，数据存储在newbj_lianJia.csv文件中，共4322条数据。每条数据包含房屋的详细信息：ID、楼层（floor）、有无电梯（lift）、城区名（district）、街道名（street）、小区名（community）、面积（area）、房屋朝向（toward）、户型（model）、总楼层（totalfloor）和租金（rent）信息，共计11个属性。房屋详细信息如图8-1所示。

■图8-1租房数据集的部分数据展示

本案例任务要求：找到数据表中的特征属性与房屋租金（rent）的关系，并使用线性回归模型对租金进行回归分析。

案例实现

“北京链家网”租房数据的租金回归分析的实现流程为：首先导入数据，对数据进行预处理；然后讨论租金与其他属性是否存在线性关系；接下来对房屋面积和租金建立线性回归模型；最后评估回归模型的效果。具体实现过程如下。

（1）导入库。其中LabelEncoder模块用于数据预处理时对非数值型数据进行数字化，train_test_split模块将数据集划分为训练集和测试集，linear_model模块用于构建线性模型。代码如下。

（2）读入数据，并对数据做预处理。

①读入数据。使用Pandas库的read_csv（）读入“北京链家网”的租房数据集newbj_lianJia.csv。读入数据表的10列数据分别是：楼层（floor）、有无电梯（lift）、城区名（district）、街道名（street）、小区名（community）、面积（area）、房屋朝向（toward）、户型（model）、总楼层（totalfloor）和租金（rent）。代码如下。

输出结果为:

② 重复值处理和缺失值处理。在第5章实现案例时，已经对数据集进行了重复值和缺失值处理，所以本章使用的数据集不存在重复行和缺失值。

③ 分解户型model列数据。将model列的取值“*室*厅*卫”拆分为3个列：bedroom、livingroom和bathroom，分别对应室、厅和卫。具体来说，首先定义3个函数，分别获取室、厅和卫的数据，然后使用Pandas库的map（）方法将3个函数应用于数据表的model列。代码如下。

④ 数据编码。回归分析或某些机器学习算法是基于数学函数的，这些算法的输入要求是数值型数据，所以如果数据集中出现了非数值型数据，数据分析的结果可能是不理想的。例如，在本章所使用的租房数据集中，楼层floor这个属性有4个取值，即地下室、低楼层、中楼层和高楼层，这时需要将4个属性值转换为数值型数据。可以自行编写程序，将非数值型数据转换成数值型数据，也可以使用Scikit-learn库提供的两种方法：LabelEncoder 和 OneHotEncoder。

LabelEncoder又称为标签编码，例如将楼层floor的4个取值（地下室、低楼层、中楼层和高楼层）转换为数值0、1、2、3，这就是标签编码。OneHotEncoder又称为独热编码，将每一个非数值型变量的m个可能的取值转变成m个0或1，对于每一个变量，这m个值中仅有一个值为1，其他的都为0，例如使用OneHotEncoder方法将楼层floor编码为4位0或1的数值：地下室=>1000、低楼层=>0100、中楼层=>0010、高楼层=>0001。利用OneHotEncoder将非数值型数据转为0和1，有利于提升计算速度。但是这种编码方式增加了数据维度，比如原楼层属性只有一列数据，如果按照OneHotEncoder编码，数据列变成了4列数据。所以如果需要编码的属性的取值数目不多，建议优先考虑OneHotEncoder，如果取值数目较多，使用OneHotEncoder会使特征空间变得非常大，所以此时不建议使用OneHotEncoder。

本文对属性取值比较少的floor和lift两个属性进行自定义编码，对属性取值比较多的district、street、community和toward属性使用LabelEncoder编码。OneHotEncoder方法读者可自行练习。代码如下。