模型调优

昵称16883405 2016-07-16

展开全文

desc 关于特征工程

使用LR 回归，找出谁的权重大，

1.比如面积对房价的权重大，那么就可以进一步细化：

比如面积这个因素很重要，那么就着重操作这个因素，比如细化等

比如继续找：卧室面积，客厅面积，面积比例，平方，根号等也作为因素加进去

2.再就是还可以这么来，这些特征，比如size，或size平方，或size开根号。这样特征不是相关了吗？

（这相关，但是不是线性相关，而你的model 是线性model）

所以其平方根号都可以加进去

一般不用三次方，因为维度高了，那么可能使得模型不够稳定

这就是LR解释性强的原因老大们能听懂

模型融合

比如 bagging，比如 adaboost

bagging （空间）其实就是训练多个模型，然后 vote，不同的模型吃不同的数据，都是一个子集

adaboost （时间）则是在时间轴上操作的，每次更改样本权重，着重学习错误

adaboost

two key point: 每一轮都

1. 给本弱分类器配上一个系数

2. 每次样本权重更改

boosting 算法的方法容易过拟合

boosting 与 bagging 的方法对比

AdaBoost是每个子分类器结果对后面的有影响，bagging是独立的

ada 的好处就是每次都是面对 all 数据，bagging 每次是又放回的抽样，取的是数据子集

adaboost 可以是多分类

if adaboot 的弱分类器是多分类，那么 adaboost 就可以多分类

boosting 和 bagging 是两个思想，对应的实现有：

adaboost 和 RandomForest

boosting 算法都可能过拟合：

bagging 下的树深度

boosting 的迭代次数

都是防止过拟合的方式

high variance 和

high bias

模型状态有两种：

过拟合(overfitting/high variance)

欠拟合(underfitting/high bias)

训练好了模型，需要关心的是：模型的是状态

欠拟合为什么叫做 high bias ？这个的翻译是：高偏差，

而不是高截距(intercept)，即很多样本离它很远

而 high variance 就是高方差，即模型上下抖动，为了串上数据点而过度拟合

DT 可以选特征

因为每次选哪个作为分支，是按照熵排序的：即这里有一个次序关系

因此决策树可以 feature select的

CTR 预估使用 AUC 作为通用的评价指标神经网络过拟合会用正则化，防止过拟合 xgboost 既用 boosting 又用 bagging: BGDT 百度纠错功能示例

一个【观点】这是在考察你贝叶斯

比如用户输入米月传，那么你能纠正为芈月传

why Python 快

Python 很多库的实现是C，所以你本质是在用 C 的， map reduce 也可以 Python

ipython notebook

全部.ipynb放在桌面然后cmd下切换到桌面

然后运行 ipython notebook

梯度提升树

Gradient boost tree

先拟合一下，然后对残差，再次拟合，模型叠加，在对残差再次拟合

直到收敛

专门对差值做一个连续值的预测

如何分析模型

1. 看状态，是 high variance 还是 high bias

variance and bias，李诚经常说的两个词，原来是实在评价训练好的 model 状态

2. case study，尤其是分错的 sample

1.一一找出来，这些分错的例子（回归中哪些样本 bias 大）

2.它归为这一错类，是哪个因素特征导致的

3. bad case 之间有没有共性

4. 是不是缺新的特征

找到共性处理措施就是：比如分错的可能是新上市的商品，此时的应对可能就是一些规则

工业界线性的应用

线性回归，LR，LinearSVM 都是线性核，即 kernel 是线性的

工业界很多是线性模型，对于权重大的那个因素，做细化的工作

就是重要因素，多方面挖掘，着重挖掘，即：

重要特征的组合变异比哪些本征的小权重因素还要重要

过拟合是不能降维

确实防止了过拟合，但是准确率不会提升

降维是在损失信息

验证集和测试集

交叉验证集做参数/模型选择# 选 LR 还是 SVM ，可以从这里得到

测试集只做模型效果评估，即百分之多少的准确率应该说是从 test data 上得到的

# 这个可以视为：convention

一些经验

数据量太大不适合用SVM

SVM 一般比其他的分类器健壮，作为首选

一般不用KNN，因为需要保存所有的样本的feature，占用内存和时间去遍历

样本量少需要拉长时间窗口，即再等等

一个新的结论

从这个角度说：validate data 就是 train data！！！

模型前工作

数据预处理：数据清洗与（上下采样以上的非倾斜）

特征选择

模型选择

交叉验证选出超参数

模型选择

1. 路线图

2. 验证集

模型优化的角度

1. 模型现在处于什么状态

2. 找出有用 weight 的feature

3. bad case 分析

4. 模型融合 bagging or boosting

我想这个是那个淘宝面试官想问的问题

这才人家想问的问题

其实还是在看你的经验

降维 LDA ，PCA 都可以视为降维特征选择的嵌入式方法

正则化

决策树

深度学习

聚类也有一个重要问题

即：到底聚为几类？

知道几类，用Kmeans

或者使用层次聚类法

搜索的种类

完全式搜索

启发式搜索

随机搜索

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：昵称16883405 > 《性能调优》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

昵称16883405

关注对话

TA的最新馆藏

Spark 随机森林算法原理、源码分析及案例实战
Spark升级2.0.1版本安装部署教程
spark2.0.1 安装配置
Spark 初体验
Investigation of Dynamic Allocation in Spark
使用spark ml pipeline进行机器学习

喜欢该文的人也喜欢更多

热门阅读换一换