电信数据挖掘的数据质量评估技术研究

发布时间：2015-08-04 09:08

摘　要：近年来，随着数据挖掘技术的不断更新与完善，无论是应用范围还是应用深度都是大幅度增加。在电信领域中也是得到了快速的应用与发展。因此，对其的研究工作既具有理论价值，又具有实际应用价值。本文首先对数据挖掘有关概念进行分析，然后，对电信数据挖掘的数据质量评估技术进行详细探索。希望能够为有关的研究人员提供一些帮助。

关键词：电信数据挖掘；数据质量评估；应用分析

数据挖掘技术能够对海量数据中的需求数据进行快速、高效、准确的进行提取，其在电信领域中的应用为相关的工作人员节省了大量的工作时间和精力，提高了工作效率以及行业的经济收入。其在电信领域中的主要应用包括：客户细分、流失预测以及话费欺诈分析等。尽管在理论方面其功效很好，但是，由于实际的应用环境以及技术等方面的客观原因，目前电信数据的质量相对较差。所以，在数据挖掘之前，数据质量评估工作是非常有必要的。本文首先对数据挖掘有关概念进行分析，然后，对数据评估体系中的一些关键技术进行分析，最后，基于电信欠费挖掘主题的数据质量评估方法进行阐述。
一、数据挖掘的数据质量评估
　　数据质量评估是对数据质量进行管理的工作内容之一，其主要负责对数据问题进行发现，并对其驱动力和风向标进行改善。数据质量属于多为概念类型，其中的任何一个维度都表示一类审视数据质量的角度，例如：可靠度、完备度等。数据质量评估主要是以需求作为导向，不同的应用背景之下相同的数据所能接受的程度有所不同，所以，实际上需求分析是对维度的选择过程。数据质量分析基于不同的质量维度，以动态或者静态的方式对数据进行审视。
二、电信数据质量评估关键技术分析
　　下面针对电信欠费数据的分类，对数据质量评估体系中几个核心算法进行分析：
(一) 基于类分布的属性加权算法
　　属性加权能够对所分类的数据中输入以及目标属性的相关性进行加权体现。其中权责越大，说明相关程度越大，输入属性也就更为重要。所以，其属性上的有关数据质量问题产生的负面作用也就越大。、该算法根据输入属性的每个取值所对应的记录集合中正类记录的比例与数据集的倾斜度之间的差异大小来衡量该属性与目标属性之间的关联度；差异越小，则关联越小。数据挖掘面对的通常是高维数据，仅凭经验很难把所有的重要属性都识别出来，CAWA能在不依靠经验的基础上实现属性重要程度的量化。
(二) 基于属性的缺失评估算法
　　该类算法主要是从两方面进行考虑：丢失了不同输入属性，其分类结果受到的影响也是有所不同，程度也不一样；正类记录和负类记录的不同缺失给分类结果造成了影响以及程度也是有所不同的。所以，针对缺失值方面，不应该仅仅从属性的角度进行加权计算，还要从正负记录等方面进行加权计算。并且，往往在非平衡数据当中，正类记录上的缺失导致的影响要远远高于负类记录缺失所产生的影响。这种基于属性加权的缺失评估算法是在属性加权算法的基础上进行研究开发的，其充分考虑到了数据的非平衡性，并且，将具有不同属性以及不同记录的全部缺失值进行加权计算，从而得出最终的评估结果。
(三) 非平衡离群评估算法
　　一般情况下，离群存在两种可能，其中一种是对出现异常情况真实反映，而另一种情况则是出现了噪音。这两种情况在实际工作中很难进行区分。因为，数据挖掘其处理的数据都是以静态形式存在的，很难扑捉到其产生的真正机制。从电信数据非平衡性显著方面考虑，可以得出以下的一些分析结果。
　　在非平衡数据集的超图模型中，正类和负类点分别对应数据集中的正类和负类记录。从原则上讲，正类离群点和负类离群点在某种意义上都有出现噪音的可能，从而影响到分类结果。但是，如果数据质量比较高的话，正类点在全部的数据点中发生离群现象的可能性相对较大，而其导致的原因极有可能是出现了异常行为。而此时，负类点出现离群现象的几率却比较小，如果出现了离群现象，发生噪音的可能性非常高。在进行非平衡数据集分类过程当中，需要特别关注的就是正类群体相对于负类群体出现了异常行为现象，因为，此时负类群体的离群现象往往会导致分类器对正类点的分辨出现失误，从而致使最终的分类结果准确率严重不足。特别是当负类离群点在一些关键属性组合之下往往能够出现与众多正类点类似的表现。所以，把负类群体的离群程度放到电信数据质量评估体系当中是非常有必要的。
　　电信数据通常是高维数据，这里使用超图离群检测算法寻找负类离群点。基于超图的离群点是局部属性意义下的，即离群仅表现在输入属性集合的某一个子集上。离群点的绝对离群程度可由点所在的簇对窗口的规模偏差来表示，考虑到各个输入属性对分类结果的重要性不同，定义在不同属性子集上的离群点对分类结果的影响也是不同的，所以要对绝对离群程度加权。
　　由上面的分析可以得出，离群评估并不针对正类记录，其主要思想就是利用超图离群检测算法对负类离群点进行查找，并对这些负类点的离群度进行计算，非平衡离群评估算法首先是通过超图离群检测算法将相对于各条频繁超边的离群点查找出来，然后，对这些点的离群度进行计算，并对其进行评估。
三、电信欠费挖掘主题的数据质量评估方法
下面对电信欠费挖掘主题质量评估方法进行分析，图1为该评估系统的流程图。其主要有离群评估和缺失评估两部分内容组成，最后的评估结果能够从各个分向量清楚了解到。具体流程如下：

图1 电信欠费挖掘主题质量评估系统的流程图
　　电信欠费挖掘主题的数据质量评估具体流程：
　　1.将需要评估的数据输入到系统当中。
　　2.对每个属性的缺失率进行详细统计，并根据缺失率计算出缺失统计向量。
　　3.对数据集中的倾斜率进行统计，倾斜度是指正类记录的百分比。
　　4.利用CAWA对输入属性值进行加权计算，并得出相应的属性权值向量。
　　5.使用AMEA和IOEA分别进行缺失和离群评估，计算评估得分。
　　6.对评估的得分向量进行输出，并将这些向量值作为数据挖掘可行性的判断依据。输出评估得分向量，并依据评估得分向量的参照值判断挖掘的可行性。
三、总结
　　随着网络技术的快速发展，各行各业中的数据信息成指数性增长，这无疑为信息的处理工作增添了相当大的难度。数据挖掘技术为处理海量数据带来了新的契机，在该技术的帮助下，人们处理这些数据更加的高效、准确，而且，其处理速度更加符合实效性。然而，由于技术以及一些客观因素，导致数据挖掘技术的实际应用效果并不是很理念，很多数据质量较差。因此，数据评估技术的广泛应用是十分必要的。本文首先对数据挖掘有关概念进行分析，然后，对数据评估体系中的一些关键技术进行分析，最后，基于电信欠费挖掘主题的数据质量评估方法进行阐述。希望能够为有关的研究人员提供一些帮助。
参考文献：
Fred R Dee, Thomas ,Philip ,Timothy ,John ,Michael ,Suzanne ch.A Web-based database for pathology faculty effort reporting. Human Pathology. 2008
　　

上一篇：对加快我县小微企业发展的建议

下一篇：行政事业单位国有资产管理中的风险及防范对策

电信数据挖掘的数据质量评估技术研究

热门论文

热门推荐

推荐问答