搜索

分享

QQ空间 QQ好友新浪微博微信

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

静幻堂 2018-08-20

展开全文

繁华落尽and曲终人散 2018-08-20 14:21:59

1.什么是异常值？

在机器学习中，异常检测和处理是一个比较小的分支，或者说，是机器学习的一个副产物，因为在一般的预测问题中，模型通常是对整体样本数据结构的一种表达方式，这种表达方式通常抓住的是整体样本一般性的性质，而那些在这些性质上表现完全与整体样本不一致的点，我们就称其为异常点，通常异常点在预测问题中是不受开发者欢迎的，因为预测问题通产关注的是整体样本的性质，而异常点的生成机制与整体样本完全不一致，如果算法对异常点敏感，那么生成的模型并不能对整体样本有一个较好的表达，从而预测也会不准确。、

私信小编007即可获取数十套PDF哦！

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

1. 简单统计

如果使用pandas，我们可以直接使用describe()来观察数据的统计性描述（只是粗略的观察一些统计量），不过统计数据为连续型的，如下：

df.describe()

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

或者简单使用散点图也能很清晰的观察到异常值的存在。如下所示：

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

3. 箱型图

这种方法是利用箱型图的四分位距（IQR）对异常值进行检测，也叫Tukey‘s test。箱型图的定义如下：

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

以上是常用到的判断异常值的简单方法。下面来介绍一些较为复杂的检测异常值算法，由于涉及内容较多，仅介绍核心思想，感兴趣的朋友可自行深入研究。

4. 基于模型检测

这种方法一般会构建一个概率分布模型，并计算对象符合该模型的概率，把具有低概率的对象视为异常点。如果模型是簇的集合，则异常是不显著属于任何簇的对象；如果模型是回归时，异常是相对远离预测值的对象。

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

5. 基于近邻度的离群点检测

统计方法是利用数据的分布来观察异常值，一些方法甚至需要一些分布条件，而在实际中数据的分布很难达到一些假设条件，在使用上有一定的局限性。

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用，因为一个对象的离群点得分由到它的k-最近邻（KNN）的距离给定。

需要注意的是：离群点得分对k的取值高度敏感。如果k太小，则少量的邻近离群点可能导致较低的离群点得分；如果K太大，则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。

优缺点：（1）简单；（2）缺点：基于邻近度的方法需要O(m2)时间，大数据集不适用；（3）该方法对参数的选择也是敏感的；（4）不能处理具有不同密度区域的数据集，因为它使用全局阈值，不能考虑这种密度的变化。

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

Python数据分析最基础的教程！适合想学数据分析小白的你阅读！

异常值总结

以上是对异常值检测和处理方法的汇总。

通过一些检测方法我们可以找到异常值，但所得结果并不是绝对正确的，具体情况还需自己根据业务的理解加以判断。同样，对于异常值如何处理，是该删除，修正，还是不处理也需结合实际情况考虑，没有固定的。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：静幻堂 > 《Python》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

静幻堂

关注对话

TA的最新馆藏

脾气暴躁、唉声叹气…你的经络堵住了！艾灸，疏通经络，赶走坏情绪
肝病都是拖出来的，一旦晨起有4个表现，是肝在“求救”，别大意！
艾灸调五脏，艾灸两个穴位20分钟
血管堵塞时，会频频发出这7个“警告”，要重视起来！艾灸教你预防血管堵塞
艾灸得气，效果翻倍！那么，艾灸该怎么得气？
气喘不容忽视，中医艾灸助你告别呼吸困难困扰！

喜欢该文的人也喜欢更多

热门阅读换一换