组建基于Web方式的数据仓库 - 范文中心

组建基于Web方式的数据仓库

09/16

组建基于Web 方式的数据仓库

2003-06-05 01:22 其它 【文章字体:大 中 小】

组建基于Web 方式的数据仓库 四川大学计算机学院 陈华英 基于Web 方式的数据仓库的引入 数据仓库是存储供查询和决策分析用的集成化信息仓库,它的数据来源于数据库或其他信息源(如日志文件) 。基于Web 的数据仓库主要是指它的数据来源于WWW 站点。 目前,通过Web 方式可以充分地共享应用和信息,利用Web 技术进行原有业务增值已成为信息技术的趋势。因此在进行数据仓库系统设计时,人们一直在追求最大限度地取得决策所需的各种信息,共享各种应用,因此组建基于Web 方式的数据仓库的方案得以提出。 Web数据的半结构 Web中有大量丰富的数据:文本、图片、声音、图像等,这些数据多存在于HTML 文件中,没有严格的结构及类型定义,被称为半结构化的(Semi-structured) 数据。 在Web 中主要存在两种结构。一种是超文本结构,依据此结构,逻辑上相关联的结构信息在物理上被链接,利用标签 能够将文件以及图像的区域链接到本地计算机或Internet 其它地方的文档中去。另一种是由HTML 文本特点决定的文本组织结构,通过HTML 语言,用不同的方法将数据组织在文本中。例如,给定一个HTML 页,通过HTML 标签容易识别该页的标题(title)或一些复杂的结构,如表格(table)、项目列表(list)等。 Web数据仓库用户感兴趣的往往是这些半结构化的数据。在HTML 文档中,数据所在的行一般是一些设有完整的语法结构的句子片段,从这种文档中提取数据不能简单套用传统的信息提取的方法。 信息提取的目标是根据文档内容来概括、总结文档。它涉及自然语言处理 (NLP)的技术,主要任务是从文本中识别预先定义的信息类型,如用在商业领域的一个信息提取系统会提取公司名称、产品、设备、商业数据等。因为Web 半结构数据的特点给Web 数据仓库带来了先天的困难,对此我们提出一种新的方法:将原先用HTML 写的Web 数据转化为XML 形式的Web 数据(或在现有用XML 写的Web 数据基础上) ,利用XML 优势(例如,XML 使浏

览器能对数据进行排序和过滤,能根据样式表按用户的特定喜好把数据表示出来) ,构建基于Web(全部为XML 文档) 的数据仓库。 将HTML 文档转化为XML 文档 HTML和XML 都是用来进行信息发布的,它们都是用文本形式存储的,并且都是基于结构化信息的国际标准,但还是一些区别。HTML 只说明数据看起来应该是什么样,而XML 则说明数据是什么意思。与HTML 不同,使用XML 可以建自己的标记,这些标记可以更准确地描述用户所要的东西。 目前,已有很多处于试运行阶段的XML 工具,比如:FrameMaker +SGML(用于编辑和排版) 、ADEPT Editor(用于内容管理的编辑器) 、Xmetal(友好的XML 编辑器) 、XML Styler(图形化的XSL 样式表编辑器) 等等都可以将HTML 文档根据你自己定义的XML 样式转化为XML 文档。那么,现在构建基于Web 数据的数据仓库最主要的工作就是针对Internet 上的所有XML 文档如何构造数据仓库,本文介绍的数据仓库原型是采用一种“虚拟数据库”(VDB)技术构建的数据仓库管理系统。 虚拟数据库的工作原理 设计虚拟数据库管理系统(VDBMS)的目的,就是使万维网和其他外部数据源看起来就像单个数据库一样,它将成为企业或万维网应用基础设施的一个组成部分。这种关系数据库视图使我们能够使用结构化查询语言SQL 来执行功能强大的查询操作,查询结果可以根据应用系统的要求,用关系表或XML 文档来表示。 虚拟数据库管理系统是一个基于Java 的集成系统,可以用它来开发和操作一个“虚拟数据库”,即建立在大量WWW 站点和其他数据源之上的一个关系视图。数据库和 Internet应用可以通过ODBC 和JDBC 接口,用SQL 来访问虚拟数据库。 1.包装器开发工具包 包装器(Wrapper)是Java 程序,它们根据需要从数据源(如WWW 站点) 中抽取数据,并将数用表的形式表示出来。包装器开发工具包(WDK)提供了包装器框架,它们是一组 Java类。使用这些框架,包装器开发人员就可以很容易地定制数据查询过程。WDK 为网络访问、HTML 语法分析、模匹式配和关系数据输出提供了高级抽象。 2.抽取器开发工具包(EDK) 数据集成的过程经常需要从“非结构化”文本中抽取结构化数据。这种非结构化数据指的是将样式信息与抽象数据混在一起的计算机表示法。为了做到这一点,包装器使用一个叫做抽取规则的程序,该程序是

编程人员用抽取器开发工具包所创建的一套规则和程序库。 抽取规则是用称为 Junglee抽取语言(JEL)的一种高级语言来表达的。编程人员用JEL 可以描述复杂的文本模式和语言结构,以标识使用特定名词的上下文。单个名词被列在程序中,EDK 编译器可以为它加上由标志和值组成的标签。抽取规则和程序库是由EDK 抽取引擎来解释的。 3.VDB服务器(VDB Server)主数据质量工具包 VDB服务器和必要的抽取器结合起来,并把它们表示为一个具有一致性的关系数据库,数据库可以通过JDBC 或ODBC 用SQL 来访问。VDB 服务器可以根据应用系统的要求,将查询结果表示为表或XML 文档。 关系缓存区用以提高万维网数据源的查询性能,该缓存区可以预先接入,并根据应用的要求进行刷新。 虚拟数据库经常会处理一些非常不规则的数据,这些数据不在VDB 管理员的控制之下,而且会在没有任何通知的情况下发生巨大的变化。因此,数据转换和数据合法性检查就显得很关键。数据质量工具包提供建立数据转换器的能力,转换器可以将不同数据源中的属性值转换为一种公共的表示方式和词汇表。数据合法性检查器可以对一些条件进行监视或强制在不同级别(行、列、表) 进行约束。另外,对包装器送来的数据要进行稳定性测试。 4.管理员界面 管理工具用于在VDB 服务器上注册和注销每个数据源及其相关的包装器。数据源注册之后,就可以在虚拟数据库中用表的方式访问了。 系统管理员使用注册命令,在VDB 服务器用户和他们访问数据源时所用的对应名字之间建立认证映射。系统管理员还可以用注册命令把系统的工作负载分配到局域网上的多个工作站上。 结束语 VDB技术将Internet 转化为能支持强大的结构化搜索功能的数据库,而XML 也提供了一种把结构化数据交付给浏览器的有效的机制。因此,VDB 技术使Internet 向数据库转变成为可能, 也为组建基于Web 的数据仓库技术提供了新的方法。


相关内容

  • 面向服务的战场态势感知与协同技术研究
    第2期2012 年4月 Journal of CAEIT Vol.7No.2Apr.2012 檵檵0 共用态势图(COP )简称态势图,是军事指挥部门了解战场态势的主要手段,是广泛的战场态势感知系统.服务和应用的一个关键部分,是服务于决策制 ...
  • 怎样建立小型呼叫中心
    怎样建立小型呼叫中心 随着中小型企业发展,如何满足这类用户的客户服务问题已逐渐提上日程.这种企业一个典型的特点就是不可能像大型企业那样,投入大量资金建设呼叫中心.因此,随着市场需求的增长,非正式呼叫中心(或者称为小型呼叫中心)越来越受到人们 ...
  • 元数据管理等相关问题
    http://cio.csai.cn/bi/[***********].htm 希赛网 元数据管理技术及应用现状 作者:佚名 来源:http://www.chinabi.nethttp://www.csai.cn 2006年10月19日 朋 ...
  • IPCC呼叫中心
    IPCC 目录: 概述简介 业务应用 架构模式 组建方式 系统特点 线路接入 典型方案 概述简介 IPCC是IP CallCenter的简称,本质上是以IP技术和IP语音为主要应用技术的呼叫中心构建方式,即利用IP传输网来传输与交换语音.图 ...
  • 空调自控技术方案
    空调自控系统技术方案 第1章. 总体设计说明 1.1建筑概况 本项目(XXXXX 有限公司整体迁扩建项目)位于浙江省杭州市,共有综合车间1及综合仓库.综合车间2.质检研发楼.前处理提取及仓库4个区域. 1.2工程设计资料 暖通专业图纸 1. ...
  • 基于web高校毕业生就业信息管理系统研究(硕士论文)
    电 子 科 技 大 学 UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA 专业学位硕士学位论 文 MASTER THESIS FOR PROFESSIONAL DEGREE 论 ...
  • 论文相似性检测报告
    论文相似性检测报告 报告编号:301baab5-bd1b-401a-80e4-a3c001726053题 名:301baab5-bd1b-401a-80e4-a3c001726053报告编号: 作 者:46,441原文字数: 论文相似性检测 ...
  • RFID条码手持终端PDA技术有什么好处
    RFID 条码手持终端PDA 技术有什么好处 RFID 条码手持终端PDA 技术助力上汽车制造业资产管理 手持POS 打印终端PDA 传统资产.重要零部件管理都是通过管理员用手工方式制作Excel 表格,并进行归档.这存在很多问题:录入效率 ...
  • 校园联网监控解决方案
    平安校园监控解决方案 浙江大华技术股份有限公司 浙江大华技术股份有限公司 1/27 目录 1 需求分析 .................................................................... ...
  • 20XX年全国计算机三级数据库考点知识大全
    2017年全国计算机三级数据库考点知识大全 1.ISP(internet 服务提供商) 是用户接入internet 的入口点,一方面他为用户提供接入internet 服务,另一方面,他也为用户提供各类信息资源.一般用户接入internet ...