聚类分析.数据挖掘.关联规则这几个概念的关系 - 范文中心

聚类分析.数据挖掘.关联规则这几个概念的关系

06/21

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题,

聚类分析是无监督的发现数据间的聚簇效应。

关联规则是从统计上发现数据间的潜在联系。

细分就是

聚类分析与关联规则是数据挖掘中的核心技术;

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。

关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组

(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。

关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

按照不同情况,关联规则可以进行分类如下:

1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字

段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。

2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。


相关内容

  • 基于云模型与地理位置分析中国气候类型
    [摘 要]中国有五大气候类型,其分类基础是在大量的气象要素和天气现象的平均或统计状态.常规的数学统计及数理分析对气候的分类有过于死板等缺点.然而,云模型对不确定性概念有很好的表达能力,这一优点使其在气象要素统计处理中能发挥很大作用. [关键 ...
  • 怎样写毕业论文才通过答辩(毕业论文答辩)
    怎样写毕业论文才通过答辩 答辩是毕业的重要环节 毕业设计和毕业论文是本科生培养方案中的重要环节.学生通过毕业论文,综合性地运用几年内所学知识去分析.解决一个问题,在作毕业论文的过程中,所学知识得到疏理和运用,它既是一次检阅,又是一次锻炼.不 ...
  • 计算机网络与信息系统集成调研报告
    <计算机网络信息系统集成>课程研究报告 姓 名:阳 涛 学 院:湖北工业大学 班 级:控制工程班 学 号:520130114 时 间:2013年8月12日 基于数据仓库的数据挖掘技术分析研究 摘 要 基于数据仓库的数据挖掘技术是 ...
  • 面向服务的战场态势感知与协同技术研究
    第2期2012 年4月 Journal of CAEIT Vol.7No.2Apr.2012 檵檵0 共用态势图(COP )简称态势图,是军事指挥部门了解战场态势的主要手段,是广泛的战场态势感知系统.服务和应用的一个关键部分,是服务于决策制 ...
  • 信息管理原理与方法何斌张立厚主编习题答案
    第一章 习题参考答案 一.名词解释 信息 信息资源 信息化 信息管理 信息资源管理 数据 知识 CIO 信息的生命周期 企业信息管理师 信息管理学 (1)信息 信息分为"本体论层次信息"和"认识论层次信息&qu ...
  • 2-非经常性资金占用及其他关联资金往来的披露及报送要求
    特别提示:本工作备忘录不是对有关政策.规章的补充解释,而仅为上市公司 在信息披露工作中提供必要的参考. 信息披露工作备忘录――2006年第2号 (修订) 非经常性资金占用及其他关联资金往来的披露及报送要求 <公开发行证券的公司信息披露 ...
  • 真题及答案
    2008年4月全国计算机等级考试四级笔试试卷 数据库工程师 选择题 (1) 数据模型定义子数据库中数据的组织.描述.存储和操作规范,可以分为概念模型.数据结构模 型和物理模型三大类.概念模型的典型代表是 A A )实体-联系模型 B )关系 ...
  • 地理信息系统概论--知识点总结
    地理信息系统概论 第一章 导论 数据与信息的关系: 数据:是通过数字化或记录下来可以可以被鉴别的符号,不仅数字是数据,而且文字.符号.图象也是数据,数据本身没有意义: 信息:是对数据的解释.运用与解算,数据即使是经过处理以后的数据,只有经过 ...
  • 中国宪法惯例问题辨析
    作者:何永红 现代法学 2013年05期 中图分类号:DF082 文献标识码:A DOI:10.3969/j.issn.1001-2397.2013.01.02 恐无人否认,中国宪法如何实施,如何使文字形态的宪法规范转化成"活的& ...