诊断性数据分析 我们在诊断性数据分析中,很多时候都需要证明数据本身所表达出来的意义和真实情况没问题,但是实际上有些异常值或者噪声会干扰我们的判断,或者影响我们解读,这就是诊断性数据分析要做工作之一:我们怎样才能证明它的合理性呢?当然,简单来说,我们可以将其视为可过滤掉的噪声异常值就行。 但是,也有可能是这个异常值本身就是具备存在价值的——例如所有各方都认为这并不是数据的错误,而是有意义的极值,这种时候,我们应该假设存在隐藏(或潜在)原因。 在实际的分析工作了,大多数复杂的场景都具有大量难以分析的潜在原因(有时称为因素)。总的来说,有异常并不是一个糟糕的情况……正如写代码出现了bug,最可怕的不是有bug,而是这个bug无法复现,这才是定时炸弹——将有意义异常值识别出来,并且将它们包含在模型中并通过数据集了解它们的影响是非常重要的工作。 另一方面,如果我们决定,要丢弃所有未知元素,可能就意味着我们会降低模型的预测能力,并且会成比例地降低准确性。因此,诊断分析的主要目标不一定是找出所有因素,而是列出可观察和可测量的因素(也称为因子),以及所有的潜在因素(通常概括为单个全局因素)。 在某种程度上,因为我们可以轻松监控效果,诊断分析通常类似于逆向工程的过程,但要检测潜在原因与可观察效果之间存在的关系就较为困难。因此这种分析通常是概率性的,并且有助于找出某个确定的原因带来特定影响的概率。这样,排除非影响分量和确定最初排除的关系也更容易。 以上就是诊断性分析的一些意义和观点。 |
|