基于上抽样和集成学习的不平衡数据分类研究
Classification in Imbalanced data based on Over-Sampling and Ensemble learning
Abstract
不平衡数据在统计机器学习领域成为一个越来越热门的研究课题。目前流行的统计机器学习理论和已有的分类算法,大多是建立在各类样本数据量大致相等的前提下,从而进行各类统计推断或是分析的。然而这些已有的经典方法一旦应用在不平衡数据中,便产生了严重的偏倚现象,使得少数类的识别率很低。但是在现实中的应用场景,少数类所隐含的信息是人们更加关注的。因此使少数类的识别率提高有理论意义和现实意义。 本文从两个方面对传统的分类算法进行改进: 1.数据层面,提出BOS上抽样方法。该方法基于非参数统计的Boostrap抽样方法。在每次样本的构造过程中取少数类的子样本集,对其求期望值作为新样本。从而扩充了样本容量,使类... Imbalanced data has increasingly become a popular research topic in the field of statistical machine learning. At present, the popular statistical machine learning theory and the existing classification algorithm are mostly based on the fact that the amount of sample data is roughly equal, commencing all kinds of statistical inference or analysis. However, these existing classical methods, once ap...