2000年4月
文章编号:100026788(2000) 0420027204系统工程理论与实践第4期
基于数据仓库的决策支持系统框架
谢 榕
(武汉测绘科技大学城市建设学院, 湖北武汉430070)
摘要: 数据仓库技术是在充分地开发信息资源的迫切要求下产生并迅速发展起来的一个国际前沿
研究新领域Λ本文分析传统决策支持系统开发中存在的问题, 探讨数据仓库技术在决策支持系统建立
中的应用, 提出基于决策支持系统的基本结构框架, 并讨论系统建立中数据仓库的数据组织与设计、
数据挖掘层次空间的建立、知识发现方法等技术关键, 最后进一步阐述系统的建立方法Λ
关键词: 数据仓库; 数据挖掘; 知识发现; 决策支持系统
中图分类号: T P 391 α
A F ram ew o rk of D ecisi on Suppo rt System
Based on D ata W arehou se
X IE Rong
(Schoo l of U rban Studies , W uhan T echn ical U n iversity of Su rveying and M app ing , W uhan 430070)
Abstract : T he paper analyzes som e p rob lem s in traditi onal decisi on suppo rt system . It
discu sses how to app ly data w arehou se to decisi on suppo rt . T he paper p resen ts system
arch itectu re of decisi on suppo rt system . It also p resen ts som e key p rob lem s such as
o rgan izati on and design of data w arehou se , level space of data m in ing , and m ethods of
know ledge discovery . F inally , it summ arizes estab lishm en t m ethods of the system .
Keywords : data w arehou se ; data m in ing ; know ledge discovery ; decisi on suppo rt
system
1 引言
自从1954年计算机用于工资处理以后, 信息处理得到快速发展Λ一般认为, 信息处理大致经历了三个发展阶段, 即数据处理系统、管理信息系统和决策支持系统Λ信息处理逐步从集中式走向分布式, 由孤立系统转向集成系统, 由部门职能管理发展为企业决策支持Λ
1971年, 美国Go rry 、“决策支持系统D SS (D ecisi on Suppo rt System ) ”术语[1], 标M o rton 等人首次提出
志着决策支持理论研究开始Λ80年代初期, 关系数据库技术日益成熟, 决策支持研究得到进一步深化, 出现了基于关系数据库的“三库”和“四库”结构的决策支持系统Λ80年代后期, 决策支持系统与专家系统结合, 出现了智能决策支持系统的研究热潮Λ然而, 决策支持系统也面临着其发展上的巨大障碍, 投入应用的成功实例并不多Λ分析原因主要有以下几个方面:1) 决策支持涉及大量历史数据和半结构化问题Λ在传统数据库管理系统基础上建立决策支持系统只能提供辅助决策过程中的数据级支持, 难以求解复杂的半结构化决策问题Λ2) 决策支持系统以集成数据为基础Λ然而现实中的数据往往分散管理且大多分布于异构的数据平台, 数据集成不易Λ3) 决策支持系统的建立需要对数据、模型、知识和接口进行集成Λ数据库语言数值计算能力较低, 因而采用数据库管理技术建立决策支持系统知识表达和知识综合能力比较薄弱, 难以满足人们日益提高的决策要求Λ
α收稿日期:1998212204
资助项目:中荷D SO 项目资助(9831)
90年代初, 数据仓库(D ata W arehou se ) 技术的发展给以上问题的解决带来了新的契机Λ数据仓库将来自各个数据库的信息进行集成, 从事物的历史和发展的角度来组织和存储数据, 供用户进行数据分析, 并辅助决策支持[2,8], 成为决策支持的新型应用领域Λ由于数据仓库理论与技术的研究与开发尚处于起步阶段, 用于决策支持还有许多特殊的问题急待解决, 下面本文着重探讨数据仓库技术在建立决策支持系统中的理论框架Λ
2
系统基本结构框架
我们提出一种基于数据仓库的决策支持系统基本结构框
架如图1所示Λ它由数据库、数据仓库、数据仓库管理模块、数
据挖掘工具、知识库、知识发现模块、人机交互模块组成Λ系统
的主要输入是数据库中的数据以及知识库中的知识和经验Λ
数据仓库管理模块完成数据仓库的创建以及数据仓库中数据
的综合、提取等各种操作, 负责整个系统的运转Λ数据挖掘工
具用于完成实际决策问题中的各种查询、多维数据分析和数
据开采等Λ知识发现模块控制并管理知识发现过程, 将数据的
输入和知识库中的信息用于驱动数据选择过程、知识发现引
擎过程和发现的评价过程Λ人机交互模块则通过自然语言处
理和语义查询在用户和系统之间提供相互联系的集成界面Λ
图1 决策支持系统的基本结构框架在图1中箭头方向为控制流Λ决策支持同数据仓库管理是
密切联系的Λ用户发出决策请求命令后, 通过数据挖掘工具触
发数据仓库管理模块从数据仓库中获取与任务相关的数据Λ被选择的数据经过知识发现模块中知识发现引擎抽取算法处理, 生成辅助模式和关系Λ这些模式和关系被评价后, 它们中的一些被认为感兴趣的数据将提供给决策部门应用, 有些发现则加入到知识库中, 用于后继的知识发现和知识评价Λ
因此, 建立决策支持系统关键性的问题在于如何创建数据仓库、如何从数据仓库中发现知识以及如何向用户解释和表达知识
Λ
3 数据仓库的数据组织与设计
数据仓库为决策支持系统提供了可取的数据组织方式Λ
信息系统中涉及的数据主要来自部门内部具体的日常业务数
据, 一般数据库可对其进行处理, 这类数据又称为基本数据Λ而决
策所需信息是通过基本数据所体现的整体趋向或随时间变化而表
现出来的变化趋势, 必须对基本数据进行分类、析取、归纳、加工等
处理才能得到这些信息Λ基本数据在时间控制机制下生成历史数
据, 在综合机制下生成综合数据Λ此外决策支持还需要运用部门外
图2 数据仓库的基本逻辑结构部数据Λ以上数据与外部数据共同构成数据仓库的信息源Λ通过建立提取器(Ex tracto r ) , 将来自信息源的、影响数据仓库的数据转化为数据仓库模式Λ当信息源中数据发生变化时, 集成器(In tegrato r ) 对信息进行过滤、总结, 并和其它信息合并, 把新的信息集成到数据仓库中Λ数据仓库的基本逻辑结构如图2所示Λ
逻辑上, 一个完整的数据仓库由以下四部分定义:1) 仓库设计部分Λ它负责数据仓库环境的定义和设置Λ2) 数据获取部分Λ它从外部数据源析取和变换数据, 使它们以数据仓库的方式组织和存储Λ3) 数据管理部分Λ它完成数据更新、仓库例行维护以及分布数据的管理Λ4) 数据访问部分Λ它面向最终用户, 在决策支持系统中, 向决策者提供决策信息及分析报告Λ
4 数据挖掘与知识发现
4. 1 数据挖掘(Da ta M i n i ng ) 的基本特点
从信息源获取信息, 并将它们组织集成到数据仓库, 其目的在于对数据仓库中的数据进行分析和综合, 数据挖掘是一种有效的工具Λ它从数据库中提取人们感兴趣的数据模式、数据的普遍关系及其一些潜在的、事先未知的数据特征[3,4, 9]Λ概括地说, 数据挖掘是在数据仓库的基础上进行知识发现(Know ledge
[7]D iscovery ) , 因此这一技术在决策支持方面具有广泛的应用Λ概括起来, 它具有以下特点:1) 数据挖掘需
要对大量数据进行处理; 2) 对用户不能形成精确的查询要求, 依靠数据挖掘寻找用户可能感兴趣的信息; 3) 它把大量的原始数据转换成有价值的知识, 用于描述过去的趋势和预测未来的趋势; 4) 数据量增长快速, 数据挖掘能快速地作出响应, 提供决策支持信息Λ
4. 2 数据挖掘的层次空间的建立
从应用深度上, 将数据挖掘划分为三个层次空间(如图3所示) :1) 数据空
间Λ它利用现有数据库管理系统的查询检索功能, 进行基于关键字的信息查
询, 实现联机事务处理OL T P Λ2) 聚合空间Λ利用聚集运算(Sum 、A ve 、M ax 、
M in ) , 结合多维分析和统计分析, 实现在线分析处理OLA P Λ3) 影响空间Λ按照
相似性的聚类、差异性的分类方法, 发现关联性、相似时序、结构模式, 从数据
库或大量数据记录中发现隐含的有用信息, 这是在更深层次上的知识发现, 是图3 数据挖掘的层次空间数据挖掘实质性内涵Λ
以上数据挖掘的各个层次空间反映了不同级别的查询请求, 这种划分有利于知识的逐步提取, 建立知识层, 知识的提取过程即为决策支持过程Λ在传统决策支持系统中, 知识库中的知识和规则由专家或程序人员建立的, 从外部输入, 而数据挖掘是从系统内部自动获取知识的过程Λ同数据库管理系统查询检索的信息相比, 数据挖掘的知识是隐含的、精练的和高水平的Λ
5 知识发现方法研究
数据挖掘的知识通常表现为概念、规则、规律、模式、约束和可视化等形式Λ这些知识经过解释后可以直接在实际系统中应用, 用以辅助决策过程, 或者提供给领域专家, 修正专家已有的知识体系, 也可以作为新的知识转存到应用系统的知识库中Λ发现的过程是使数据挖掘利用各种知识发现算法从数据库中发现、表达、更新和解释有关知识Λ
5. 1 基于关联规则(A ssoc i a tion Rules ) 的知识发现
数据关联是数据库中存在的一类重要的可被发现的知识[5]Ζ若两个或多个变量的取值之间存在某种规律性, 则称为关联Ζ数据间的关联通过关联规则表示, 其形式为:A 1∧A 2∧…∧A i →B 1∧B 2∧…∧B j Ζ如果B 1, B 2, …, B j 出现, 则A 1, A 2, …, A i 一定出现, 这表明数据A 1, A 2, …, A i 和数据B 1, B 2, …, B j 之间存在某种联系Ζ关联分析采用关联规则归纳技术找出数据库中数据项(属性, 变量) 之间内在隐藏的关联网Ζ
5. 2 不确定性知识的表达
人们对事物的判断、预测和决策是在问题域的信息不完全、不精确或者模糊的条件下进行的Ζ粗集理论作为一种智能数据决策分析工具, 被研究并应用于这种不确定性的知识获取和知识表达中Ζ它通过构造描述领域知识的概念集A ={a 1, a 2, …, a n },a i ∈A , 由系统的事实库形成对象集E ={e 1, e 2, …, e m },e j ∈E , 基于分类集P 和对象集E , 对E 经过一定的操作产生核t c (P , E ) 和包络t e (P , E ) , 从而形成该问题的一个粗集[t c (P , E ) , t e (P , E ) ],构成不确定性区间, 这样使用上限和下限两个量作为不确定性的测度Ζ
粗集方法与其它知识发现方法, 如模糊集理论相结合, 可以在数据库中数据不确定情况下获取多种知识Ζ
5. 3 知识的更新和完善
在人工智能和机器学习研究领域, 神经网络(N eu ral N etw o rk ) 通过对大量样本模式学习, 得到从n 维
输入向量空间到m 维输出向量空间的非线性映射F , F :R n →R m Ζ利用神经网络输出结果经专家认可后, 将其作为新的样本实例存入系统中, 不断地从样本模式中学习专家用于决策的、定性的、经验性的知识, 可以保证系统不断地更新知识和获取新知识Ζ
5. 4 知识的表达和解释
系统中最重要的应用是用户能够理解所发现的知识, 这要求知识的展现不限于传统的数字或符号, 而是更容易理解的方式, 如表格、直方图、散点图或自然语言等Ζ数据可视化采用直观的方式将信息模式、数据关联或趋势多维地呈现给决策人员, 使决策人员交互地分析复杂的数据关系, 并能深入地了解数据的状况、内在本质及规律Ζ
6 决策支持系统的建立
基于以上讨论, 建立该决策支持系统的过程可描述如下:1) 分析决策需求, 确定决策主题, 描述和表示决策的问题Ζ2) 确定数据来源, 对异构环境下可操作的数据记录、数据库或文件系统中的数据重新进行组织, 建立数据仓库Ζ3) 针对所要发现任务的所属类别, 设计或选择有效的数据挖掘算法并加以实现Ζ4) 调用数据挖掘功能, 从平凡的历史数据中提炼出综合数据, 并与最终用户交互、协同, 得到宏观性数据和趋势性知识Ζ5) 测试与评价所发现的知识, 对知识进行一致性、效用性处理Ζ6) 根据最终用户的要求, 建立适用于决策支持的集成界面和应用程序, 使用户能在决策支持中运用所发现的知识Ζ
以上过程不是简单的线性流程, 而是一个学习、发现和修改的过程, 步骤之间包含了循环和反复, 这样可以对所发现的知识不断求精、深化, 并使其易于理解Ζ
7 结语
决策支持系统的建立是一项复杂的系统工程Λ本文对数据仓库技术在该系统建立中的应用作了较深入的探讨, 提出了建立该系统的理论框架Λ数据仓库技术不是一种单一的技术或软件, 它融合了数据库理论、统计学、数据可视化和人工智能技术等多项研究领域, 在大量数据中发现有价值的知识, 用于决策支持和预测未来Λ因此基于这一技术的决策支持系统为决策人员提供了强有力的支持工具, 能有力地推动决策的现代化进程Λ
参考文献
[1] Go rry G A , Sco tt M o rton M S . A F ram ew o rk fo r M anagem en t Info rm ati on System s .
M anagem en t R eview , 1971.
[2] A graw al R et al . D atabase M in ing :A Perfo rm ance Perspective .
~925. D ata Eng . , 1993, 5(6) :914
. System s and T heir A pp licati on s , 1997, M arch -A p ril
[4] T erry M o riarty . M odeling D ata W arehou se . D atabase P rogramm ing and D esign , 1996.
[5] M atheu s C , Chan P K , P iatesky 2Shap iro G . System fo r Know ledge D iscovery in D atabase .
. on Know ledge and D ata Eng . , 1993, 5(6) :903~913. T ran s
[6] Jeffery D . U ll m an .
Compu ter Science P ress , 1988.
[7] Edw in M Kno rr , R aymond T N g . F inding A ggregate P rox i m ity R elati on sh i p s and Commonalities in
. on Know ledge and D ata Eng . , 1996. Spatial D ata M in ing . IEEE T ran s
[8] 姚卿达, 黄晓春, 刘向民. 数据仓库和数据采掘应用研究. 计算机科学, 1996, 23(6) :63~65.
[9] 胡侃, 夏绍玮. 基于大型数据仓库的数据采掘:研究综述. 软件学报, 1998, 9(1) :53~61.
[10] 王清毅, 陈恩红, 蔡庆生. 知识发现的若干问题及应用研究. 计算机科学, 1997, 24(5) :73~77. IEEE . on Know ledge and IEEE T ran s Sloan [3] Sarab j ob S A nand , B ryan W Sco tney . D esign ing a Kernel fo r D ata M in ing . IEEE Expert In telligen t . 1) . N ew Yo rk :P rinci p les of D atabase and Know ledge 2base System s (V o l