第25卷 第4期Vol. 25 No. 4
新乡学院学报(自然科学版)
Jour nal of X inxia ng Univer sity(Na tural Science Edition)
2008年12月
Dec. 2008
基于云理论的数据预处理方法
汤 沛
3
(新乡学院计算机与信息工程学院, 河南新乡453003)
摘 要:讨论了数据预处理的基本方法, 运用这些方法处理了昆明市部分排水管线的GIS 数据和管线疏通记录数据, 用基于云理论的数据泛化方法对数据库中相关属性进行量到概念的泛化处理, 生成目标数据表, 从而有效地提高了挖掘效率, 并确保了结果更接近自然语言的概念。关键词:数据挖掘; 关联规则; 预处理; 云理论; GIS
中图分类号:TP311. 134. 1 文献标志码:A 文章编号:167423326(2008) 0420052203
The Method of Data Pr e 2pr ocessing B a sed on The Theor y of Clouds
TANG Pei
(Comp uter a nd Infor mation Engi neering College of X inxiang Unive rsity ,Xinxiang 453003,China )
Abstract :This article disc usse s t he ba sic data p re 2p rocessing metho ds ,a nd accor ding to the dredge r ecord data and t he GIS data of draina ge system of K unming downtown , uses the spatial da ta pre 2proce ssing method to clea r data , t hen uses the me thod of some at tributes tra ns f ormi ng ba sed 2on Clouds 2Model to realize the c ha nge f rom nume rical values into the concept of t he la ngua ge. This c hange ensur es t he re sults closer to the concept of natural language. Key w or ds :Data Mining ; Association Rules ; Data Pre 2proce ssing ; Clouds Model ; GIS
0引言
在以往的数据发掘和知识发现的研究中, 人们对于知识不确定性的研究主要使用概率统计方法、证据理论方法和模糊集理论方法等, 将不确定性分成模糊性和随机性进行研究。作为处理模糊性问题的主要工具, 模糊集理论提出了隶属度的概念来刻画模糊事务的亦此亦彼性。然而, 一旦用一个精确的隶属函数来描述模糊集, 模糊概念就被强行纳入精确的数学范畴, 在概念的定义、定理的叙述及问题的证明等环节中, 就不再有丝毫的模糊性了, 这正是传统模糊集理论的不彻底性。
1云理论概述
云理论是我国学者李德毅教授在传统模糊集理论和概率统计理论的基础上提出的定性2定量不确定性的转换模型, 并由此进一步扩展到虚拟云的概念及构造、云变换和不确定性推理的思想和方法中去。
基于云理论的空间数据挖掘方法把定性分析和
定量计算结合起来, 处理空间对象中融随机性和模糊性为一体的不确定性问题。可用于空间关联规则的挖掘、空间数据库的不确定性查询等, 把定性概念的模糊性和随机性完全集成到一起, 构成定性和定
[1]量相互间的映射, 作为知识表示的基础。2空间数据预处理方法
关联规则发现是通过寻找数据集中项集或属性之间的相关联系, 以获得潜在的关联知识, 从而为决
[2]
策分析提供支持。直接从海量数据集中挖掘关联规则易受噪声数据干扰, 规则提取效率低, 规则的失真度高, 因此有必要对原始数据进行预处理。文献[3]讨论了空间数据预处理的方法, 主要包括缺失数据填充、噪音数据处理、连续属性的离散化等。但现实中的数据有时很难明确划分, 总是存在着不确定性。在自然语言中, 与语言变量对应的语言值总是有些重叠并且边界模糊的, 例如“青年”和“中年”没有一个特定的年龄划分。文献[4]用云模型将模糊性和随机性有机的结合起来, 更能表达自
3收稿日期:2008211219
作者简介:汤沛(1975-) , 男, 河南省孟州人, 新乡学院计算机与信息工程学院讲师, 硕士, 研究方向:网络应用、数据挖
掘。
52