爆款模型，聚划算爆点有秘密

随着聚划算业务的发展壮大，每天报名的商家和商品也越来越多。目前，每天的待审商品有2万多件。而审核小二为12人，平均审核一件商品需要3-4分钟的时间。卖家催促审核的来电量始终很多，阻碍了卖家服务品质的提升。审核小二压力巨大。此外，审核小二们靠经验去审核商品，并没有什么统一的标准。选进来的商品能否卖得爆，小二们心中也没有把握。更长远来看，聚划算的业务模式要转型，要从报名商品审核转向全网反向招商。这急需要一个标准，来告诉我们哪些商品有可能卖爆，卖爆的可能性有多大；哪些商品是不靠谱的，不靠谱的原因又是什么。而大数据挖掘和分析则提供了这样的解决方案。

人机结合，数据化运营的必然选择

目前世界上没有任何一台计算机的性能能够比拟人脑。运营小二在实践中提炼出来的经验和规则是最宝贵的知识。大数据解决方案如果忽视了人的经验，则一定会像无头苍蝇，盲目而不接地气。而机器，算法，程序则能够夜以继日的挖掘出数据中的细节，这些细节是人难以识别和发现的，有些也难于解释。但是却能够产生出人意料的价值和效果。人机结合，是让数据价值最大化的必然选择。

在爆款模型解决方案的整体构建中，运营，产品和数据科学团队进行了多次沟通，将业务痛点不断提炼总结，最终将整体解决方案的目标定位在两个点上。第一，最大可能的减少运营小二的审核工作量；第二，模型算法推荐出来的高分商品，将在实际售卖中比人选商品实现更高的成交。

针对第一点，运营提炼总结出了6条商品审核不通过的硬指标，即：

1、卖家商品质量DSR< 4.6

2、报名备货总额 < 10万元

3、因选款无优势被拒绝次数 > 3

4、报名价格 > 全网历史最低价

5、在淘宝的评价数量 < 3

6、在淘宝的月销量 < 3

触发这6条指标中的任意一条，商品将不会通过审核，在模型中，我们将这样的商品打为0分。在爆款模型整体解决方案构建的第一期，我们将这六条规则固化，发现每天待审的商品中有40%都因触犯了这六条高压线而打分为0。然而，BI针对此规则监控了2周时间，发现0分商品依然有很多通过了审核。0分商品的准确率在70%-80%左右，其中女装类目的准确率只有50%左右。也就是说，根据运营经验总结固化出来的规则也是有问题的。针对这一点，BI团队再次与运营和产品进行确认。而运营也修正了他们的经验。那些通过审核的0分商品中，大部分是新品，在全网的销量和评价数很少，但是却需要聚划算给与支持。针对这一点，BI又一次调整了0分规则，调整过后，0分商品数量占整个审核商品的20%左右，而准确率则高于了90%。经过多次调整和确认，固化了运营经验的0分规则满足了预期。

针对第二个目标，即模型推出爆款，数据科学团队离线试验了多种机器学习的算法，进行大数据挖掘。在数据挖掘建模的过程中，从特征的选择，数据的清理，算法库的构建，集成，到最终的离线数据试验，算法效果比较，数据科学团队进行了大量的尝试。从近百个描述商品，卖家，品牌，平台表现的指标中，进行变量选择；解决了定性变量在建模中所带来的困难；通过并行计算，提升了算法试验的效率；最终构建了包含变量选择，数据清理，以及逻辑回归，CART，加权k近邻，elastic net，随机森林，gbm，支持向量机，神经网络以及flexiblelocal tree（FLT，法决发明）等多种算法的算法库。形成了机器学习算法方面的整体解决方案。在此基础之上，又对数据进行了反复的研究和算法试验，最终从中选出了最适合聚划算爆款模型应用场景的FLT算法。

之后，BI团队部署了该算法，并针对女装类目进行了在线的对比试验。我们对比了6月1号到6月10号报名商品中通过审核后实际上聚的成交金额，与模型打分。数据表明，模型打分在50分以上的商品比50分以下的，成交金额高出了50%。而且商品的成交金额与模型打分有着高度一致的保序性。即模型打分越高的商品，实际成交金额越高。这说明了算法是有效的，确实从大数据中找出了爆款的模式和规律，而这些规律则是人难以发现的。

爆款模型的未来会怎样？

今天，爆款模型通过对每一个商品进行打分，给予运营小二在商品审核过程中的参考。既能降低审核工作量，又能选出爆款。而将来，随着业务经验在数据解决方案中的进一步沉淀，随着机器算法的进一步集成和参数调优，爆款模型将会在商品排序，卖家备货，反向招商中给予运营很多的帮助。甚至促进业务模式的改变。而随着该模型的推广，将会有更多我们想不到的需求，可以借助它得以解决。

数据科学团队依然在紧锣密鼓的推进爆款模型，从版本1.0到2.0到已经成型的3.0，算法在不断的从数据中挖掘新的模式，而业务经验也在这个过程中沉淀和整合。我们有理由相信，爆款模型在未来大有可为。