基于云理论的数据预处理方法 - 范文中心

基于云理论的数据预处理方法

05/08

第25卷 第4期Vol. 25 No. 4

     

新乡学院学报(自然科学版)

Jour nal of X inxia ng Univer sity(Na tural Science Edition)

    

2008年12月

Dec. 2008

基于云理论的数据预处理方法

汤 沛

3

(新乡学院计算机与信息工程学院, 河南新乡453003)

摘 要:讨论了数据预处理的基本方法, 运用这些方法处理了昆明市部分排水管线的GIS 数据和管线疏通记录数据, 用基于云理论的数据泛化方法对数据库中相关属性进行量到概念的泛化处理, 生成目标数据表, 从而有效地提高了挖掘效率, 并确保了结果更接近自然语言的概念。关键词:数据挖掘; 关联规则; 预处理; 云理论; GIS

中图分类号:TP311. 134. 1   文献标志码:A    文章编号:167423326(2008) 0420052203

The Method of Data Pr e 2pr ocessing B a sed on The Theor y of Clouds

TANG Pei

(Comp uter a nd Infor mation Engi neering College of X inxiang Unive rsity ,Xinxiang 453003,China )

Abstract :This article disc usse s t he ba sic data p re 2p rocessing metho ds ,a nd accor ding to the dredge r ecord data and t he GIS data of draina ge system of K unming downtown , uses the spatial da ta pre 2proce ssing method to clea r data , t hen uses the me thod of some at tributes tra ns f ormi ng ba sed 2on Clouds 2Model to realize the c ha nge f rom nume rical values into the concept of t he la ngua ge. This c hange ensur es t he re sults closer to the concept of natural language. Key w or ds :Data Mining ; Association Rules ; Data Pre 2proce ssing ; Clouds Model ; GIS

0引言

在以往的数据发掘和知识发现的研究中, 人们对于知识不确定性的研究主要使用概率统计方法、证据理论方法和模糊集理论方法等, 将不确定性分成模糊性和随机性进行研究。作为处理模糊性问题的主要工具, 模糊集理论提出了隶属度的概念来刻画模糊事务的亦此亦彼性。然而, 一旦用一个精确的隶属函数来描述模糊集, 模糊概念就被强行纳入精确的数学范畴, 在概念的定义、定理的叙述及问题的证明等环节中, 就不再有丝毫的模糊性了, 这正是传统模糊集理论的不彻底性。

1云理论概述

云理论是我国学者李德毅教授在传统模糊集理论和概率统计理论的基础上提出的定性2定量不确定性的转换模型, 并由此进一步扩展到虚拟云的概念及构造、云变换和不确定性推理的思想和方法中去。

基于云理论的空间数据挖掘方法把定性分析和

定量计算结合起来, 处理空间对象中融随机性和模糊性为一体的不确定性问题。可用于空间关联规则的挖掘、空间数据库的不确定性查询等, 把定性概念的模糊性和随机性完全集成到一起, 构成定性和定

[1]量相互间的映射, 作为知识表示的基础。2空间数据预处理方法

关联规则发现是通过寻找数据集中项集或属性之间的相关联系, 以获得潜在的关联知识, 从而为决

[2]

策分析提供支持。直接从海量数据集中挖掘关联规则易受噪声数据干扰, 规则提取效率低, 规则的失真度高, 因此有必要对原始数据进行预处理。文献[3]讨论了空间数据预处理的方法, 主要包括缺失数据填充、噪音数据处理、连续属性的离散化等。但现实中的数据有时很难明确划分, 总是存在着不确定性。在自然语言中, 与语言变量对应的语言值总是有些重叠并且边界模糊的, 例如“青年”和“中年”没有一个特定的年龄划分。文献[4]用云模型将模糊性和随机性有机的结合起来, 更能表达自

3收稿日期:2008211219

作者简介:汤沛(1975-) , 男, 河南省孟州人, 新乡学院计算机与信息工程学院讲师, 硕士, 研究方向:网络应用、数据挖

掘。

52


相关内容

  • 智能信息处理新理论,新技术专题研讨大报告
    课程:智能信息处理新理论,新技术专题研讨 题目: 学号: 姓名: SAR图像变化检测方法综述 摘要 图像的变化检测是指通过分析在不同时间来自同一地区的两副或多幅图像,检测出该地区的地物随时间发生的变化信息.本文主要用遥感图像的变化检测为例来 ...
  • 先进控制技术及应用
    先进控制技术及应用 作者: 发布时间:2008-02-04 04:04:41 来源: 繁体版 访问数: 4857 在工业生产过程中,一个良好的控制系统不但要保护系统的稳定性和整个生产的安全,满足一定约束条件,而且应该带来一定的经济效益和社会 ...
  • 基于主成分分析法和BP神经网络的组合停车需求预测模型
    基于主成分分析法和BP神经网络的组合停车需求预测模型 摘要:停车需求预测是静态交通问题的一个重要内容.本文在研究现有停车需求预测模型的基础上,充分考虑影响停车需求的主要因素,提出了一种基于主成分分析法和BP神经网络的停车需求预测模型,其中停 ...
  • 一种电子式电流互感器的研制
    # xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 一种电子式电流互感器的研制 申 烛!王士敏!罗承沐 清华大学电机系!北京市#"$$$%&a ...
  • 空间统计及计量方法学习笔记
    空间统计及计量方法学习笔记 1. 背景及文献综述 ....................................................... 2 2. 空间效应 ............................. ...
  • 人工智能概述_胡勤
    第6卷第年5月)13期(2010电脑知识与技术ComputerKnowledgeandTechnology Vol.6,No.13,May2010,pp.3507-3509ISSN1009-3044电脑知识与技术ComputerKnowle ...
  • 会计专业相关毕业论文题目表
    1. 基于公允价值会计的企业价值报告研究 2. 公允价值会计与企业财务报告改进 3. 企业财务报告相关问题及其改进(改进相关性.及时性等问题)研究 4. 企业财富变动及其信息披露研究 5. 企业价值报告框架研究 6. 企业价值信息披露体系( ...
  • 毕业论文文献综述基于SPSS的多元回归分析模型选取的应用 之文献综述
    基于SPSS 的多元回归分析模型选取的应用 文献综述 重庆工商大学 统计学 2010级 统计2班 殷婷 引 言 随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军 ...
  • 基于模糊软集合的区域信息生产力效能关键因素分析
    摘要:从信息生产力对经济发展的影响机制出发,提出了由"信息分析及管理支持"和"信息传输和处理"构成的"信息服务"分类指标,并将其纳入我国信息生产力效能指标体系,再针对社会经济数据的 ...
  • [基于问题的课堂教学模式研究]
    <基于问题的课堂教学模式研究> 结题报告 常州市第八中学 翁明星 赵文金 一.课题的提出 随着知识经济时代和信息时代的到来,教学的发展面临着前所未有的挑战.科技的发展,综合国力的竞争,急需提高国民的整体素质,培养全民创新精神和实 ...