如何理解特征工程？

昵称11935121 2018-03-29

展开全文

科学总把简单的问题转化的很复杂，在彰显其严谨的同时，也把大部分的学习者挡在了门外，jacky跟大家谈谈如何深入浅出的学习特征工程？

《特征工程三部曲》之一数据处理

要理解特征工程，首先就要理解好数据（Data）和特征（Feature）的概念

（一）逻辑梳理

特征工程（Feature Engineering）

其本质上是一项工程活动，它目的是最大限度地从原始数据中提取特征以供算法和模型使用。

特征工程在数据挖掘中有举足轻重的位置数据领域一致认为：数据和特征决定了机器学习的上限，而模型和算法只能逼近这个上限而已。

特征工程重要性：

特征越好，灵活性越强；
特征越好，模型越简单；
特征越好，性能越出色；

好特征即使使用一般的模型，也能得到很好的效果！好特征的灵活性在于它允许你可以选择不复杂的模型，同时，运行速度也更快，也更容易理解和维护。好的特征，即使参数不是最优解，模型性能也能表现很好，因此，不需要太多时间去寻找最优参数，大大的降低了模型的复杂度，使模型趋向简单。模型的性能包括模型的效果，执行的效率及模型的可解释性。特征工程的最终目的就是提升模型的性能。

数据科学家通过总结和归纳，把特征工程划分为以下三个部分：

特征工程包括：

数据处理
特征选择
维度压缩

（二）数据处理

数据处理的常用技巧

量纲不一
虚拟变量
缺失值填充

1.数据处理——量纲不一

量纲：就是单位，特征的单位不一致，特征就不能放在一起比较。
解决量纲不一致的方法：标准化

0-1标准化
Z标准化
Normalizer归一化

（1）0-1标准化

是对原始数据进行线性变换，将特征值映射成区间为［0，1］的标准值中：

（2）Z标准化

基于特征值的均值（mean）和标准差（standard deviation）进行数据的标准化。它的计算公式为：

标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

（3）Normalizer归一化

将每个样本缩放到单位范数（每个样本的范数为1），计算公式如下：

（4）如何使用sklearn实现标准化sklearn简介

sklearn

全名Scikit-Learn，是基于Python的机器学习模块，基于BSD开源许可证，官网上可以找到相关sklearn的资源，模块下载，文档，历程等等；
sklearn的数据结构基于numpy和pandas;
sklearn的数据计算基于scipy;
sklearn的数据可视化基于matplotlib;

sklearn是在现有的数据分析，数据计算，数据可视化最好的包的基础上，搭建起来的最好python 机器学习的框架；
sklearn的六大基本功能

分类
回归
聚类
数据降维
模型选择
模型预处理

sklearn处理机器学习问题的三个步骤：

数据准备与预处理
模型选择与训练
模型验证与参数调优

用sklearn实现标准化2.数据处理——虚拟变量

虚拟变量：也叫哑变量和离散特征编码，可用来表示分类变量、非数据因素可能产生的影响。
虚拟变量的两种数据类型：

离散特征的取值之间有大小的意义：例如：尺寸（L、XL、XXL）
离散特征的取值之间没有大小的意义：例如：颜色（Red、Blue、Green）

离散特征值有大小意义的虚拟变量处理

离散特征的取值之间有大小意义的处理函数，我们只需要把大小值以字典的方式，作为第一个参数传入即可；
(1) dict 映射的字典
pandas.Series.map(dict)

离散特征值没有大小意义的虚拟变量处理

离散特征的取值之间没有大小意义的处理方法，我们可以使用get_dummies方法处理，它有6个常用的参数
(1) data 要处理的DataFrame
(2) prefix 列名的前缀，在多个列有相同的离散项时候使用
(3) prefix_sep 前缀和离散值的分隔符，默认为下划线，默认即可
(4) dummy_na 是否把NA值，作为一个离散值进行处理，默认不处理
(5) columns 要处理的列名，如果不指定该列，那么默认处理所有列
(6) drop_first 是否从备选项中删第一个，建模的时候为避免共线性使用
pandas.getdummies(data,prefix=None,prefix_sep=’‘,dummy_na=False,columns=None,drop_first=False)

虚拟变量—实战案例

以互联网金融行业为例：