松哥口头禅“初级说一说,中级比一比,高级找关系”,统计最难的就是研究变量之间的关系。如何找呢?也就两个字“模型”。 构建模型,只有策略,没有金标准,谁要是告诉你可以教你构建模型的金标准,按照他教的一定正确,那都是骗人的。 变量筛选时构建模型非常重要的步骤。目前有4种方法;一是:ALL IN法;二是:先单后多法;三是:10%变换比例法;四是:Lasso法。 当样本量不是很大的时候,先单后多方法较为常用。 所谓的先单后多:就是先进行单因素分析,筛选有意义的因素,然后多个有意义的因素,在一起进入模型的方法。 先单原则的P值标准往往不在为0.05,往往会提高到0.10,0.15,或者0.20。为什么呢?为的是防止有意义的变成漏网之鱼! 如下文章截图: 后多原则:是指单因素分析如果发现多个有意义的因素,那么此时多个因素应该放入一个模型中进行PK。但是众多软件相互PK提供了逐步法、向前法、向后法。 既然有这么多种方法,不代表着统计的繁荣昌盛,反而说明该问题,没有最佳的解决方案。如下图采用的是向后法。 统计永远是为专业服务的,作为仅20年从事统计的老司机,建议你几种方法均尝试一下,看看哪种结果更容易从专业上得到合理的解释。 另如果规律是稳定存在的话,你用这几种方法的结果应该也非常的相似。 |
|