分享

处理不平衡数据综述

 生物_医药_科研 2019-01-04

文献ID:

文献名:A Review on Handling Imbalanced Data

期刊:IEEE International Conference on Current Trends toward Converging Technologies

发表时间:2018

作者及单位:Spelmen Vimalraj S; Porkodi R (Bharathiar University)

关键词:数据不平衡;分类;过采样;欠采样;混合方法.


Part.1

摘要   

分类时, 类比例失衡的数据被称为不平衡数据。不平衡数据降低了分类准确性,因为它不准确地预测了少数类的实例。类不平衡是数据挖掘从业者在各个领域都会遇到的问题。本文详细阐述了对不平衡数据进行平衡的必要性,并讨论了各个作者为平衡不平衡数据而提出的多种方法。




Part.2

导读

数据不平衡问题的严重性解释如下:例如有一个数据库,其中90%的实例来自多数类,其余实例来自少数类。如果某分类器将所有数据预测为多数类,则该分类器将获得高达90%的准确性,但这种分类却毫无意义,因为少数类全部预测错误。此外,少数类实例会被误认为是噪声数据而被清除。为了提高分类的准确性,必须对不平衡数据进行平衡。




Part.3

背景

1. 类不平衡可能是数据的固有属性,也可能是因成本、机密性等问题而不能获得完整的平衡数据。

2. 不平衡数据集有如下特征: 

A.小分离(Small Disjuncts):分类的一个大问题是要分类的样本太小,导致缺乏信息,形成高维数据——少量实例有大量特征。

B.重叠(Over lapping):当数据集具有来自每个类的相似数量的训练数据时,将发生类之间的重叠。对重叠区域的实例分类较为困难。

C.数据移位(Data shift):当训练集服从多种分布时,该问题称为数据移位。由于分类通常会出现错误的偏差(bias)选择,因此数据移位是经常产生的问题。大多数分类技术可以解决数据移位。




Part.4

方法

一、数据水平

数据水平是在预处理步骤平衡数据, 通过减少多数类(欠采样)或增加少数类(过采样)来平衡数据。该方法又分为3种: 过采样, 欠采样和特征选择. 

José A.Sáez et al提出了一种方法用于处理多类不平衡问题。 该方法在每个类中找到重要实例,形成一个子集,并独立地为它们中的每一个进行过采样。 该方法检测多类数据集中的四种不同类型的实例:主流的、边界的、稀有的和异常的。

基于KNN算法,Marcelo Beckmann et al提出了新的欠采样方法:删除每个类中实例的邻居以平衡数据。 该算法在33个数据集上进行了测试,并与6种方法进行了比较,即ENN,SMOTE,NCL和随机欠采样方法。 结果与其他方法进行了比较,证明KNN欠采样方法取得了良好的准确性,并且将取样样本称为“大海捞针”效应。该方法也可用于明晰决策边界和去除噪声数据。结果表明,KNN欠采样方法是平衡不平衡数据的最佳机器学习方法。


二、算法水平

算法水平通过设计新分类算法来解决不平衡数据产生的偏差. 算法水平分为基于集合的方法,阈值方法,单类学习,成本敏感学习和主动学习方法。很多分类器像朴素贝叶斯和神经网络那样提供一个值来表示实例倾向于某一类的程度。

Schapire等提出了一种称为ARCing的增强技术,自适应重采样和证明了弱学习可以在PAC(probably approximately correct)学习框架的意义上成为强学习。 弱学习只不过比随机猜测稍微好一些。 AdaBoost和SVM增强是最常用的技术,与其他增强方法相比,可以提供更好的准确性来处理不平衡问题。


三、混合方法

混合方法是数据水平与算法水平下各方法的组合。 混合方法需要克服数据水平和算法水平的问题,还要实现更好的准确性。

RHSBoost结合混合采样(欠采样和ROSE采样)与AdaBoost技术,Boosting方法提高了准确性,最终能得到可靠且高质量的分类结果。


四、评估指标

预测模型有7种评估指标,分别是Precision,Sensitivity,Specificity,Geometric mean,F-Measure,Mathew Correlation coefficient,AUC。




Part.5

结果

在本文中,详细阐述了不平衡问题,并讨论了多种处理不平衡数据的方法。 从这次调查中,很多作者已经证明SMOTE算法效果较好并提出了更好的方法以处理不平衡数据。 




Part.6

讨论

许多现实领域存在不平衡问题,如医疗诊断,欺诈呼叫检测和电信部门。 尽管有许多方法可用于处理各个领域的不平衡问题,但仍未对医学诊断领域给予足够的重视。 因此,本文建议对处理不平衡数据的技术进行更多改进。




解读人:刘乐

文献来源

 DOI:10.1109/ICCTCT.2018.8551020

V. S. Spelmen and R. Porkodi, 'A Review on Handling Imbalanced Data,' 2018 International Conference on Current Trends towards Converging Technologies (ICCTCT), Coimbatore, India, 2018, pp. 1-11.



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多