基于本体的语义分析 - 范文中心

基于本体的语义分析

07/21

第28卷第3期2011年3月 

计算机应用研究

ApplicationResearchofComputers

Vol.28No.3Mar.2011

基于本体的语义分析过程与方法的研究应用

张文秀,陈 伟,朱庆华

京210093)

1a

1b

(1.南京审计学院a.审计系;b.信息管理系,南京211815;2.南京大学国家信息资源管理南京研究基地,南

摘 要:为了提高信息化环境下语义分析能力,将本体引入语义分析。通过对典型本体构建方法的比较与综合,形成一种持续优化的本体构建方法,在此基础上进行概念分析、关系推理。进一步对比基于本体的语义分析和其他语义分析方法,指出基于本体的语义分析更具系统性、针对性,推理能力强。最后,将基于本体的语义分析应用到软件缺陷分析系统中。结果表明,本方法能够集成到原有系统中并有效进行关系推理和冲突识别。关键词:本体;本体构建;语义分析;软件缺陷;关系推理

中图分类号:TP391   文献标志码:A   文章编号:1001唱3695(2011)03唱0961唱04doi:10.3969/j.issn.1001唱3695.2011.03.048

Researchandapplicationofprocessandmethodsof

ontology唱basedsemanticanalysis

(1.a.Dept.ofAudit,b.Dept.ofInformationManagement,NanjingAuditUniversity,Nanjing211815,China;2.NationalCenterforInfor唱mationResourceManagement,NanjingUniversity,Nanjing210093,China)

ZHANGWen唱xiu,CHENWei,ZHUQing唱hua

1a

1b

Abstract:Inordertoimprovethecapabilityofsemanticanalysisininformationizedenvironments,broughtontologyintose唱

manticanalysis.Firstly,itsuggestedacomprehensiveontologybuildingmethodaftercomparingandintegratingtypicalontolo唱gybuildingmethods.Onthisbasis,itgaveconceptualanalysisandrelationinference.Bycomparingontology唱basedsemanticanalysiswithothersemanticanalysismethods,itshowedthattheformerwasmoresystemic,moretargetedwithbetterreason唱ingability.Finally,integratedfunctionofontology唱basedsemanticanalysisintoexistingsystem,anddevelopedthecapacityforrelationinferenceandconflictrecognitionbytakinganexampleofsoftwaredefectinformationanalysis.Keywords:ontology;ontologybuilding;semanticanalysis;softwaredefect;relationinference

0 引言

随着语义网、语义领域(semanticfield)和语义框架(se唱manticframe)

[1]

1 本体的构建方法

本体是对某领域内客观存在的概念、概念的属性及其相互之间关系的显式说明或表示。本体的构建多是面向特定领域。出于对不同学科领域和具体工程的不同考虑,本体构建的过程各不相同。当前典型的本体构建方法都是从具体的本体构建项目中总结获得的。最早的本体构建方法是1995年根据企业本体(enterpriseontology)以及TOVE项目本体的实际开发过程获得的经验总结。此后,陆续出现了一些新的本体构建方法,如Methontology、骨架法、KACTUS工程法、SENSUS法、IDEF唱5方法、七步法等。这些方法都由一个总体流程和各步的操作规则构成

[4]

等语义理论和语义理解模型的提出,语义的研

究逐渐增多。在信息化环境下,为了对一定领域中的多形态客观对象进行语义层面的分析,需在语义知识框架的辅助下,通过相关概念和关系的描述与分类,对信息所代表的语义进行提取、综合、演绎。Lee等人

[2]

所提出的语义网的总体框架中,本

体是核心组成部分,它为语义网的实现提供了可共享、概念化的知识体系。

本文通过对比分析现有的典型本体构建方法而采用更加优化的方法构建本体,形成一个逻辑上的语义网络,并将本体与信息系统进行链接。加之本体具有推理能力,因而可以利用本体中的语义关系及推理规则进行推理和消歧,实现基于本体的语义分析,比基于统计或句法规则的语义分析具有更强的推理能力。此外,本体采用的描述语言是计算机可读的,这更加有利于实现自动智能检索和分析。可以说,本体是机器自动推理和智能化高级信息服务的基础

[3]

本研究通过文献调查法分析七种本体构建方法的基本步骤和要素等,比较结果如表1、2所示。

通过表1、2的分析可以看出,本体构建方法中比较完整、成熟的是七步法和Methontology法,而IDEF唱5法、SENSUS法、TOVE法、骨架法和KACTUS法则一般。尽管如此,每种方法体系都有其特点和适用领域。比较成功的本体构建项目大多

,将有力地推动智能语义分析。

  收稿日期:2010唱08唱19;修回日期:2010唱09唱23  基金项目:国家自然科学基金资助项目(70971068);南京审计学院校级课题(NSK2009/B18);江苏省政府留学奖学金资助项目

  作者简介:张文秀(1975唱),女,山西汾阳人,讲师,博士,主要研究方向为信息系统审计(wenxiuzhang2@gmail.com);陈伟(1976唱),男,山东单县人,副教授,博士后,主要研究方向为审计信息化;朱庆华(1963唱),男,江苏丹阳人,教授,博导,博士,主要研究方向为信息资源管理.

・962・计算机应用研究 第28

借鉴软件工程中面向对象、原型化等方法构建本体,并从系统需求分析出发,明确需求、规范过程、实时评价等方面规范领域本体的构建

[5]

,再根据项目自身的特点和专家经验进行。因

此,本研究不是简单地选用某一种方法,而是基于以上的比较分析,选择以斯坦福大学医学院所提出的成熟度较高的七步法的思路为基础,同时综合Methontology法、IDEF唱5法具有评价与优化的优点,形成图1中所示的持续优化的本体构建方法。

表1 典型本体构建方法的过程比较

名称规划考虑复用

分析表示评价与优化MethontologyTOVE法法有

有无

无有

有有有有优化有评价骨架法有无有有有评价KACTUSSENSUS法有IDEF唱5法无无有无法有无有无有有有有优化与验证

七步法

无表2 典型本体构建方法的综合比较

名称生命周期相关技术方法细节

特点应用领域TOVE法不全不定少基于问题Methontology法

有不全详细生命周期化学企业

、(Onto)2Agent

骨架法不全不定少指导方针企业KACTUS法没有不定很少知识复用多用途复杂技术系统知识建模SENSUSIDEF唱5法法没有没有

不全不定

一般详细启发式结构化电子科学企业、军事等

七步法

不全

有详细

系统

医学等

2 基于本体的语义分析研究

2畅1 基于本体的语义分析

基于本体的语义分析主要有本体构建和语义推理两大步

骤,如图1所示。在构建好的本体基础上开展语义推理,首先要获取用户的语义分析需求并对其语义进行标注,再从领域本体中读取相关概念、关系、规则、定理等,借助语义解析和推理工具,在语义层面进行概念分析、关系校验、关系推理等,以满足用户的语义分析需求。

本体描述语言(ontologyWeblanguage,OWL)是W3C

(WorldWideWebConsortium)所推荐的,它的突出特点是对本体具有很强的描述和推理能力。OWL描述的本体主要进行以下语义推理:

概念有明确的定义a)概念分析。。本体是对概念的一个共享的显性描述内容样本中不管以何种形式出现的概念,对

都能够用OWL描述并被识别,进而能够对此概念的语义、范围等进行明确的分析。

两方面进行b)关系校验,主要对象包括类。OWL对客观世界的描述主要从概念和属性、属性、实例。本体描述的概念之间的基本关系有四种:(a)part唱of表达部分与整体关系;(b)(kindd)attribute唱of表达继承关系唱of表达属性关系;(c)instance。OWL唱of表达实例和概念的关系增强了对象之间的继承;关系和复杂类表示,利用这些关系描述可以校验各种对象之间

的关系是否合理、完整。

发展并发现未定义的关系c)关系推理。从OWL。描述的已知关系可以推测关系的此外,由于本体中除了概念、属性以及它们之间的关系之外,还可以定义实例、规则和公理,能够

进一步对内容样本进行语义表示和推理,所以可以展开深层次隐性知识推理与信息挖掘。2畅2 语义分析方法的比较

语义分析方法中比较有代表性的还有Landauer等人[6,7]

提出的潜在语义分析(latentsemanticanalysis,LSA)和基于规

则的语义分析等。

在技术思想方面,基于本体的语义分析与潜在语义分析、基于规则的语义分析有明显差别。它将哲学思想与现代信息技术结合,通过对客观事物本质属性和关系的清晰描述进行语义推理,而后两种语义分析方法都是从文本中提取关键词进行语义分析,只是两者所采用的具体分析技术有所不同。在实现方式方面,基于本体的语义分析可利用本体解析器、推理机,其关系描述与推理能力较强,但需要领域专家与信息工作者事先协作构建本体;基于规则的语义分析也需要事先建立句法分析规则,而潜在语义分析不需要具体领域知识库和词语语义分析器。三种语义分析方法的具体比较如表3所示。

表3 语义分析方法的比较

名称

对象

技术基础

分析器

应用领域自动程度

在描述领域

基于本体的需领域解析器广泛,如:语语义分析

客观对象

概念与关系的基础上进知识库

推理机

义网、领域较高行语义推理知识管理

根据统计学

潜在语和矩阵运算不需要较广泛,如:义分析

文本

进行降维的领域无

文本检索、较高

语义结构分析

知识库知识提取

基于规则根据规则进需句法的语义分析

文本

行句法分析

规则

无不广泛较低

  从表3可以看出,基于本体的语义分析方法具有以下优点:

域,OWLa)针对性对具体领域的语义描述和定义是清晰而明确的、系统性强。基于本体的语义分析针对特定领

,具有

很强的表达和推理能力,而且领域本体比较系统。潜在语义分

第3期张文秀,等:基于本体的语义分析过程与方法的研究应用・9   63・

析、基于规则的语义分析不针对明确的领域,仅有一些简单规则。

解和降维因子b)推理性能高,从中提取关键词和潜在的语义结构。潜在语义分析通过建立复杂的奇异值分

,方法机械

而计算量大;而领域本体的引入和构建是知识工作者和领域专家协作和迭代的成果,基于本体的语义分析比通过机械计算得到的关键词—句子语义空间更能揭示语义关系与知识。

特别适用于文本c)适用领域广泛,而基于本体的语义分析适用于多种形式的客。潜在语义分析、基于规则的语义分析

观对象。

3 基于本体的语义分析应用

本研究将本体的语义分析应用到软件缺陷信息分析中。软件缺陷是指可运行软件产品中会导致软件失效的瑕疵

[8,9]

利用本体的标准化、形式化特点和推理功能,可以有效解决软件缺陷信息的规范表示、共享与分析推理等关键问题,更对软件缺陷分析有显著扩展,使缺陷分析不再仅限于缺陷密度、缺陷成长等简单分析,而能进行更广泛、更深入的缺陷语义分析,把隐含在显式定义和声明中的语义关系和规律通过推理提取出来,将软件缺陷信息有效地转换为组织可共享的知识。3畅1 基于本体的软件缺陷语义分析系统

基于本体的语义分析在应用时应以有效、集成为原则,即

尽可能在原有领域应用程序的基础上集成语义分析使其发挥作用,而不是重新架构一套全新的系统。因此,可在原有系统中增加领域本体库和语义分析模块。从最上层来看,基于本体的语义分析系统采用简洁的分层体系结构,共分为基础层、功能层、表示层三层,如图2所示。

1)基础层 包括系统运行所需的操作系统、数据库和领域本体。对软件缺陷信息管理而言,需在现有应用程序的操作系统和数据库的基础上,在领域专家和本体工作者的协作下,参照本体的构建方法学,利用Protégé等本体编辑器和OWL本体描述语言,构建并管理软件缺陷领域本体。含有丰富语义的缺陷信息管理领域本体能够为软件组织的信息组织、知识发现与共享提供支持,为利用本体的语义分析能力揭示隐藏在大量缺陷信息背后的知识和规律做好前期准备。

2)功能层 是在利用现有领域应用程序的同时,增加语义分析引擎,以实现基于本体的语义分析功能。领域应用程序

一般由多个功能模块组成,对软件缺陷管理系统来说,它一般有缺陷跟踪、查询统计、e唱mail通知等模块。语义分析程序的工作流程是:a)获取用户的语义分析需求,将用户需求进行语义标注;b)通过读取领域本体得到领域概念和关系的明确描述;c)借助本体解析器如Jena进行RDF语义解析;d)在本体推理机如Racer的帮助下,利用各种规则和概念网络,对软件缺陷信息中所涉及的概念和术语进行语义推理,发现隐含的关系和规律;e)将分析结果按照用户的需求提交至表示层,并添加到基础层的领域本体中。

3)表示层 是面向一般用户和语义分析用户的界面接口,它将功能层所实现的包括语义分析在内的各种系统功能向用户提供简单、直观的表现和支持。在这一层中,用户可以提交语义分析需求、设定各种语义分析限制条件等。3畅2 基于本体的软件缺陷语义分析应用

本体推理有多方面应用,如获得本体中的语义含义并运用

本体的语义来发现规律、解决问题,还可以检测冲突、优化表达和本体融合

[10]

。本文以软件缺陷信息为语义分析对象,进行

关系推理和冲突识别。

3畅2畅1本体在构建的过程中会定义大量概念 推理未知关系

、属性以及它们之间

的关系,而有些潜在的关系是未定义的,甚至是未被发现的,本体就可以根据已定义的关系进行推理,从而得到未定义的关系。这样的推理对于本体的构建者来说可以完善本体概念中的关系定义,对于本体的使用者来说可以进行知识发现等。本研究是在IBM的缺陷正交分类法(orthogonaldefect

classification,ODC)

[11]

和美国国土安全部(UnitedStatesDepart唱

mentweaknessofHomelandenumerationSecurity,CWE,DHS)

[12]

)的基础上建立起的软件缺陷领

发布的常见缺陷列表(common域核心概念集,如图3所示。对概念集中的概念及其关系进行完善,梳理出分类和层次,并定义类,剩余的概念就是类的属性。这一定义类和创建属性的过程就是本体的表示,即采用建

在软件缺陷领域本体中有一个具体实例,如下:

枙owl:Classrdf:ID="Design"

枙rdfs:subClassOf枛

 枙owl:

Classrdf:ID

="Activity"/枛枙/rdfs:subClassOf枛枙/owl:Class枛

枙owl:Classrdf:ID="LateralCompatibility"枛

枙rdfs:subClassOf枛

枙owl:Classrdf:ID="Trigger"/枛枙/rdfs:subClassOf枛枙/owl:Class枛

枙rdfs:subClassOf枛

・964・

计算机应用研究 第28

枙owl:Restriction枛枙owl:onProperty枛

枙owl:TransitivePropertyrdf:about="#has_member"/枛枙/owl:onProperty枛枙owl:allValuesFrom枛枙owl:Classrdf:ID="LateralCompatibility"/枛枙/owl:allValuesFrom枛 枙/owl:Restriction枛枙/rdfs:subClassOf枛

枙owl:TransitivePropertyrdf:about="#has_member"枛 枙owl:inverseOf枛

枙owl:TransitivePropertyrdf:about="#is_member_of"/枛 枙/owl:inverseOf枛枙/owl:TransitiveProperty枛

这是用OWL定义的软件缺陷信息管理领域本体中的四个类和两个属性。四个类是activity及其子类design,trigger及其子member类lateralcompatibility。两个属性是has_码还描述了_of,这两个属性之间的关系是design“has_member”lateralcompatibilityinverseOf。member这段,即OWL和isdesign代_有一个成员是lateralcompatibility,因为之前已定义has_member和is_member_of为互逆关系,于是推理出:lateralcompatibility“is_member_of”design。所推理出的关系如图3所示。3畅2畅2构建的本体应该是正确的 识别本体构建与应用过程中的冲突

、一致的,然而,种种原因可能造

成本体定义中存在冲突,而这种冲突可能会导致更加致命的错误,所以可以利用本体的推理能力来检测这种冲突

[13]

。冲突

检验的基本原理如图4所示,它是根据已定义的冲突识别目标读取本体库中相关的类和实例等,对规则等进行解析并在此基础上利用RDF推理应有的关系。然后,将推理出的关系与已定义的关系进行排序和比较,经过筛选过滤,发现不一致之处后,再进一步验证,最终确认后抽取该冲突的相关信息并报告。一个基本的应用就是检测一个类是否是另一个类的子类。通过检测本体中所有的类,可以达到识别和消除冲突的目的

[14]

在本体的应用过程中,由于用户差异,还可能因对本体中概念理解的不充分而造成应用冲突。例如:软件缺陷领域本体中的类target(即目标)对应在软件生命周期中缺陷的注入阶段,activity(即活动)、remove(即排除)分别对应缺陷的发现阶段和排除阶段。已定义规则是三者之间存在顺序的逻辑关系,缺陷的发现阶段不能早于其注入阶段,缺陷的排除阶段不能早于其注入的阶段和发现的阶段。若一条缺陷记录中target的属性为design,activity的属性为test,则remove的属性应该是test会造成冲突或using,,如果用户试图使基于本体的语义分析就能识别出此冲突并且不接

remove的属性对应成design就受这样的信息。

以上是基于本体的语义推理分析的基本应用。在本体的实际应用中,根据用户需求还可以定义很多附加规则来实现更加复杂的推理分析。

4 结束语

基于本体的语义分析方法是信息化环境下开展语义层面信息分析的有力方法。本文探讨了基于本体的语义分析方法的基本过程,主要包括本体构建和语义推理两大步骤。本体构建时需要领域专家和本体工作者采用适当的方法协同构建领域本体。语义推理则是在领域本体的基础上根据用户需求进行概念分析、关系校验和推理等。基于本体的语义分析方法在应用时,应尽可能地在现有应用系统的基础上增加语义功能模块,并且有意识地不断完善领域本体,加强语义分析。

随着人们对信息服务要求的不断提升以及语义网的快速发展,基于本体的语义分析具有广阔的研究与应用前景,今后应进一步研究本体的进化、自动化语义标注、语义推理模型等。参考文献:

[1]NERLICHB,CLARKED.Semanticfieldsandframes:historicalex唱

plorations[J].JournaloftheofPragmaticsinterfacebetween,2000,32language(2):125唱,action150.

andcognition[2]LEETB,HENDLERJ,LASSILAO.ThesemanticWeb[J].Scien唱

tificAmerican,2001,284(5):34唱43.

[3]张玉峰,艾丹祥,金燕.基于semanticWeb的个性化网络导航机制

[J].情报学报,2005,24(4):438唱444.

[4]李景.本体理论在文献检索系统中的应用研究[M].北京:北京图

书馆出版社,2005:111

[5]袁媛.领域本体建设的方法论和工具研究[D].北京:中国人民大

学,2004.[6]

LANDAUERTK,FOLTZPW,LAHAMD.Introductiontolatent284.semanticanalysis[J].DiscourseProcesses,1998,27(25):259唱[7]

DEERWESTERS,DUMAISST.Anindexingbylatentsemantic1990,analysis41[(6)J].:391唱Journal407.

oftheSocietyforInformationScience,

[8]KHOSHGOFTAARTM,SELIYAN.Tree唱basedsoftwarequalityes唱

timationnationalmodelsSymposiumforfaultonSoftwarepredictionMetrics[C].//WashingtonProcofthe8DCth:IEEEIEEEInterCom唱唱[9]NIKORAputerSocietyAP,2002:123唱,MUNSON128.

JC.Developingfaultpredictorsforevolving

softwareonSoftwaresystemsMetrics[C]./Washington/ProcoftheDC9th:IEEEIEEEComputerInternationalSocietySymposium338唱350.

,2003:[10]高琦,陈华钧.互联网ontology语言和推理的比较和分析[J].计

算机应用与软件,2004,21(10):75唱76.

[11]IBMResearchCenterforSoftwareEngineering.Orthogonaldefect

classificationresearch.ibm[.EBcom/OL/softeng].(2002唱/ODC02唱/ODC01).[2007唱HTM.

04唱12]http://www.[12]HomelandSecurity.CWE唱commonweaknessenumeration[EB/OL].

(2010唱08唱12)[2010唱08唱14].http://cwe.mitre.org/.

[13]HORRIDGEM,KNUBLAUCHH,RECTORA,etal.Apractical

guideCO唱ODEtobuildingtoolseditionOWL1.ontologies0[M].[Susing.l.]:theTheprotegeUniversity唱OWLofManchesterpluginand[14]and李永超Stanford,罗钧University旻.语义,Web2004.中的本体推理研究[J].计算机技术与

发展,2007,17(1):101唱103.

[15]张文秀,朱庆华.基于本体的信息分析研究———以软件缺陷信息

管理为例[J].情报杂志,2008,27(3):43唱45.

[16]杜小勇,马文峰,武文娟.学科领域本体的构建与进化———以经济

学领域本体为例[J].现代图书情报技术,2007,148(3):7唱12.


相关内容

  • 信息管理原理与方法何斌张立厚主编习题答案
    第一章 习题参考答案 一.名词解释 信息 信息资源 信息化 信息管理 信息资源管理 数据 知识 CIO 信息的生命周期 企业信息管理师 信息管理学 (1)信息 信息分为"本体论层次信息"和"认识论层次信息&qu ...
  • 智慧教育环境及其实现方式设计_刘俊
    2013.12 中国电化教育 总第323期    文章编号:1006-9860(2013)12-0020-07 智慧教育环境及其实现方式设计 刘 俊 (华东师范大学 教育科学学院 教育信息技术学系,上海 200062) 摘要:随着社会的发展 ...
  • 汉语言文学毕业论文
    汉语言文学毕业论文 [内容摘要]以往发表的新词语a的文章.侧重于从新词新义的显现入手探讨,从修辞格方面入手研究新词的比较少.本文主要从新词语的现状,修辞方式构成的新词的研究的意义,由比喻.借代.仿拟构成的新词的情况和其他修辞方式构成的新词的 ...
  • 夸张_人类的一种认知模式
    <前沿> 2008年第11期 夸张---人类的一种认知模式 李淑康 李 克 1 23 (1.山东工商学院大学外语教学部 山东烟台 264005;2.山东工商学院外国语学院 山东烟台 264005) [提 要]一般来讲,,随着认知 ...
  • 汉语离合词研究综述
    第4卷第4期2006年11月锦州医学院学报(社会科学版) Journal of J inzhou Medical College (Social Science Editi on ) Vol 14No 14Nov . , 2006 汉语离合 ...
  • 58-附件2_
    附件2: 重大研究计划"视听觉信息的认知计算" 2008年度项目指南 与人类视听觉感知密切相关的图像.语音和文本(语言)信息在社会.经济和国家安全等领域中扮演着重要角色,并在今后一段时间内仍将迅猛增长.这类信息可被人类直 ...
  • 空间方位隐喻认知解析
    青春岁月 空问方位隐喻认知解析 口管凌云(上海师范大学,上海200234) [摘要]认知语言学认为隐喻是人们认知世界的方式,是将抽象的概念用基本简单的概念表达和解释的工具.空间方位隐喻就是人们运用基本的空间概念去理解一些不熟悉的抽象的概念. ...
  • 信息检索论文-文本表示模型
    文本表示模型 摘要:在互联网越来越发达的时代,如何从中快速有效地搜集信息,成为一个亟待解决的问题.而信息检索的一个关键就是建立高效的文本表示模型.本文主要讨论了信息检索.三种传统文本表示模型.及其中出现的问题. 关键词:信息检索 向量空间模 ...
  • Web2.0环境下的网络信息检索
    作者:张自然金燕 2007年05期 2004年以来,随着Web2.0及其相关的典型应用 Blog.wiki.RSS.Tag.SNS等的发展,用户成为信息制造和利用的中心,他们拥有了更多点对点传递信息的渠道.这种发展和变化不仅带来了网络产业的 ...
  • 俄语语言学论文
    2011年第4期 俄语语言文学研究 2011, №4 总第34期 Russian Language and Literature Studies Serial №34 俄语语言世界图景中的生命体与非生命体 李绍哲 (黑龙江大学,哈尔滨 15 ...