数据挖掘一些相关术语(Glossary) - 范文中心

数据挖掘一些相关术语(Glossary)

01/17

人工神经网络(Artificial Neural Networks)一种非线性预测模型,通过训练和在结构上模仿生物神经网络来学习。

分类和衰退树(CART Classification and Regression Trees)一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,以预测哪些记录将有一个给定的结果。通过创建一个两路分化对一个数据集进行分段。较CHAID 技术,它需要较少的数据准备。

正方自动交互发现(CHAID Chi Square Automatic Interaction Detection)

一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,以预测哪些记录将有一个给定的结果。通过创建一个“多路分化”对一个数据集进行分段。较 CART 技术,它需要较多的数据准备。

分类(classification)

一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽可能“远离”,其中距离的测量与你正在试图预测的指定变量有关。例如:一个典型的分类问题是把一个有关公司的数据库按其信用值分组为“好与坏”,使他们尽可能与实际信用度相符。

簇化/聚类(clustering)

一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽可能“远离”,其中距离的测量与所有可用的变量有关。

数据清洗(data cleansing)

一个确保数据集中所有数值是一致的和被正确记录的处理过程。

数据挖掘(data mining)

从一个大数据库中隐藏的预测信息的抽提过程。

数据导航/浏览(data navigation)

在一个多维数据库的不同的维度、切片、分层的细节等信息的观察过程。参见在线分析处理 OLAP。

数据可视化(data visualization)

对多维数据的各种复杂关系的可视化解释过程。

数据仓库(data warehouse)

一种储存和交付大量数据的数据库系统。

决策树(decision tree)

代表一系列决策的树状结构。这些决策为数据集的分类生成规则。参见 CART 和 CHAID.

维度(dimension)

在一个平面的或关系数据库中,记录中的每一个字段代表一维。在多维数据库中,一维是一相似实体的集合;例如,在一个多维的销售数据库中会包括产品、时间和城市维。

探测性数据分析(exploratory data analysis)

使用图形化和描述性的统计技术去“学习”一个数据集的结构。

遗传算法(genetic algorithms)

一种使用类似在一个基于自然进化概念的设计中的遗传组合、变异和自然选择等处理方法的优化技术。

线性模型(linear model)

一种分析模型,它假定考虑的各变化因素是线性的关系。

非线性模型(non-linear model)

一种分析模型,它不假定正在考虑的各变化因素是线性的关系。

线性衰退(linear regression)

一种用于在目标变量和其预测因子间找出最合适的线性关系的技术。

对数衰退(logistic regression)

A linear regression that predicts the proportions of a categorical target variable, such as type of customer, in a population.

最近邻居(nearest neighbor)

A technique that classifies each record in a dataset based on a combination of the classes of the k record(s) most similar to it in a historical dataset (where k 3 1). Sometimes called a k-nearest neighbor technique.

多维数据库(multidimensional database)

一种设计用于在线分析处理的数据库系统。其结构为多维的超立方体,其中每轴一维。

在线分析处理(OLAP On-line analytical processing)

可参考面向数组的数据库应用系统,它允许用户观察、穿插导航、操作和分析多维数据库

数据警戒(outlier)

指一个数据项,其值超出一个样本上的其他大部分项的相应值的边界时,称其为警戒项。这时会预示着数据反常,需要仔细核实;他可能携带着重要信息。

预测模型(predictive model)

一个用于在数据集上预测指定变量的值的结构和处理流程。

预期数据分析(prospective data analysis)

基于历史的数据分析,它包括预测未来趋势、行为或事件。

回顾数据分析(retrospective data analysis)

对已经发生的事情做数据分析,它提供趋势、行为或事件的洞察。

规则归纳(rule induction)

对基于统计意义上的数据,抽提有用的“IF-THEN”规则。

时间序列分析(time series analysis)

按一定时间片对某个度量所做的序列分析。时间通常是数据的主要维度。


相关内容

  • Meta分析中的异质性及其处理方法
    中国循证医学杂志 2009, 9(10): 1115-1118 实 践 与 交 流 Meta分析中的异质性及其处理方法 王 丹1 翟俊霞2 牟振云3,* 宗红侠1 赵晓东2 王学义4 顾 平5 1. 河北医科大学图书馆(石家庄 050017 ...
  • 需求分析报告文档模板
    需求分析报告模板 目录 1. 引言 ...................................................................................................... ...
  • Q/GDW_383-20**[智能变电站技术导则]
    ICS 29.240国家电网公司企业标准 Q /GDW 383-2009 2009-12-25发布Technical guide for smart substation 国家电网公司发布2009-12-25实施智能变电站技术导则 Q /G ...
  • 网络广告营销用户行为分析
    网络营销离不开网络广告,首先来了解一下网络广告的基本术语. 网站术语:cookie.IP地址.log file(访客流量统计文件).logo(图标).pv(页面浏览量).URL(网址).uv(唯一访客数).web site(网站) 网络广告 ...
  • 第二十六课 图的定义与术语
    教学目的: 掌握图的定义及常用术语 教学重点: 图的常用术语 教学难点: 图的常用术语 授课内容: 一.图的定义 图是一种数据元素间为多对多关系的数据结构,加上一组基本操作构成的抽象数据类型. ADT Graph{ 数据对象V :V是具有相 ...
  • 常用数据库英文术语
    数据库相关专业术语 Distributed Database System ,DDBS 分布式数据系统 Object-oriented Database System ,OODBS 面向对象数据库 Multimedia Database S ...
  • 软件设计文档模板
    文档编号 研发生产中心 项目名称 项目来源 QR-RD-022(Ver1.2)版本A1密级商密 AXx 系统Xxx 系统 详细设计说明书(内部资料 请勿外传) 编 检 审 批 写: 查: 核: 准: 日 期: 日 期: 日 期: 日 期:X ...
  • 软件需求分析模板
    项目名称 (The English Name) 软件需求分析报告 XXX项目组 修订表 审批记录 目 录 1. 引言.............................................................. ...
  • 淡水藻类生长抑制性试验(征求意见稿)
    <水质 用单细胞绿藻进行淡水藻类生长抑制性试验>(征求意见稿) 编 制 说 明 <水质 用单细胞绿藻进行淡水藻类生长抑制性试验>标准编制组 二○一一年六月 项 目 名 称:水质 用绿藻类栅薄属的Subspicatus ...
  • 武大毕业论文格式
    武汉大学本科生毕业论文(设计)书写印制规范 毕业论文写作是反映学生毕业论文工作成效的重要途经,是考核学生掌握和运用所学基础理论.基本知识.基本技能从事科学研究和解决实际问题能力的有效手段.掌握撰写毕业论文的基本能力是本科人才培养中的一个十分 ...