配色: 字号:
电商CTR预估方法总结
2020-12-23 | 阅:  转:  |  分享 
  
电商CTR预估方法总结2020-12-22演讲人目录比赛流程1经典机器学习模型2深度模型解决CTR核心问题3特征工程4不均衡样本处理5用Gr
idSearch对ML模型调参601比赛流程比赛流程基于统计基于LR基于随机森林或GBDT,先粗粒度的做特征工程,调参,找到重要的
特征后,再精细的做特征工程用深度神经网络02经典机器学习模型经典机器学习模型LRGBDTFMFFM经典机器学习模型LR2线性模型、
求解简单、可解释强、分布式计算迭代速度快很好的利用正则化解决稀疏性问题,尤其特征维数非常大,大到千亿级别可以做特征选择模型的分类能
力取决于对特征工程,非线性切分来源于特征的平方项、立方项、数据交叉组合等人工特征工程经典机器学习模型GBDT用决策树串行的组成能够
带来非线性能力的分类器经典机器学习模型FM矩阵分解稀疏特征交叉问题LOGO经典机器学习模型FFM引入field之间的交叉组合03深
度模型解决CTR核心问题深度模型解决CTR核心问题onehot之后产生非常稀疏的高维类别特征,特别是ID类特征,百万以上,经常上亿
级难以训练,数据丰富度不够导致学习的充分度不够,传统PCA降维方式行不通不适合直接送入神经网络,参数量过大,卷积和神经网络都不行
需要想办法降维,FM,引入非线性特征组合,通过因子分解找到隐向量降维FM神经网络形式FNNPNNCCPM深度模型解决CTR核心问题
各模型及参数效果对比深度模型解决CTR核心问题FM神经网络形式通过embedding每个field得到固定维度大小的向量,fiel
d两两连接输入到隐层,隐层中,蓝色项对应交叉组合的二次项,白色项对应一次项,全连接到最终层后sigmod得到概率深度模型解决CTR
核心问题FNN成功基于网络越深,就可以学到越多的想法,FNN在FM神经网络基础上,增加全连接层,一般加2、3层,不会太深,太深容易
过拟合也不容易训练出来两阶段训练,需要先训练一个FM模型,再用这个FM模型的权重来初始化FNN的底层深度模型解决CTR核心问题PN
N成功考虑向量与向量之间的交叉方式,引入productlayer,特征间两两组合有内积运算和外积运算两种方式在embedding
层,编码后保证每一个field的维度一致深度模型解决CTR核心问题CCPM尝试用CNN来解决04特征工程特征工程2312、类别型
特征编码,分类、省、市3、年龄特征切段,可以基于统计分布情况切分,value_counts,均匀等平的分割比较合理1、读入样本,打
印列名、describe、info、head看数据的整体信息5645、连续值scale到0-1之间归一化6、类别编码后做oneho
t4、时间特征切段特征工程017、合并所有数据表,抽取部分数据作为X,原始连续值和切段新特征都可以同时使用028、注意values
取出numpy数组,并转换成int32更小的数据类型后送入模型,可以节省更多内存039、用randforest等树模型输出重要度找
到重要的特征,做更精细的特征工程05不均衡样本处理sklearn/imbalanced-learn方式过采样,增加少数类样本数量
下采样,减少多数样本的数量smote,生成中间样本多数样本拆成很多分,分别和负样本训练成多个分类器,将这些分类器集成Blaggin
g分类模型方式比例少的部分如果数量够大也还是有办法的,最怕比例又少样本数又少比例超过10:1就不合适了不均衡样本处理06用G
ridSearch对ML模型调参用GridSearch对ML模型调参感谢聆听
献花(0)
+1
(本文系职场细细品原创)