延边大学学报(自然科学版)第%! 卷第%期J 7@(%!H 7(%
年月()’" " &+870? 26@7A . 62B 562C 25D 1? E 5F 6F 0? 6@/I 512I 1(’" " &/1G H K ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !
文章编号:()! " " #$#%&%’" " &" %$" ’’" $" &
汉字数学表达式的改进
吴迪,崔荣一,金长龙
(延边大学工学院计算机科学与技术系,吉林延吉! %%" " ’)
摘要:汉字笔画中横和竖占很大比例,本文据此分解汉字,提出一种改进的汉字数学表达方法(该方法是以从汉字的整体特征出发进行全局分解得到的基本部件为基本操作数,以部件间的&种位置关系为运算符号的数学表达式(这种表达方式结构简单,形象自然,类似于代数系统,可以按照一定的规则进行运算,并可以广泛地应用于汉字的识别、网络传输、移动通信、汉字结构知识挖掘等方面(
关键词:汉字数学表达式;汉字结构;硬切分;基本部件;部件识别中图分类号:) *%+! (!
文献标识码:,
汉字作为结构化的文字,是由若干部件或基元构成(在结构模式识别中,标准文字模式
[]! 利用对结构基元及基元之间关系的一种约定来描述,形式化后可表示成一文法结构在这(
一原理的指导下,很多国内外学者都对汉字进行了大量有益的探讨,如加拿大的-(. (
[][][,]%#&台湾的-(,中国的夏莹、张昕中等,提出了汉字的有向图、/012’,3(45678(/(9062:,属性图等各种汉字结构表达式(张昕中还首次提出了数学表达式的概念(孙星明等人又提出[]; 了一种全新的汉字数学表达式方法本文针对文献[]的不足之处,提出一种改进的汉字(
数学表达式(这种方法把汉字看成是由一些部件组成的,部件通过规定的位置组合来表示汉字(这些部件作为操作数,他们之间的结构关系构成运算符号(由于汉字拥有很多的横和竖,根据汉字的使用频率表,频率最高的“横”可以占到%“竖”的频率为! “折”" (%" =,+(%>=,
[](这里归于横和竖)占到! 不象英文字母中有很多的曲线,而且,,;
非常有利于利用横和竖进行汉中,上下结构、左右结构的汉字分别占’’(#+=和; ’(&+=+,
字的切分来得到部件(该方法不仅可以用于汉字的识别,还可以使汉字的处理方法类似于代数系统的运算,大大简化了汉字信息的处理,而且可以摆脱汉字平台的限制,应用到汉字字形的自动生成、挖掘汉字的结构知识信息等(
! 汉字分解和部件的选取
大量的研究表明,在知觉和模式识别中,整体结构有着很重要的作用(这里从全局开始分解汉字,直到最后不可以分解为止(取得部件的基本原理是:首先将标准汉字图像进行预处理,然后按照字符透光性、横、竖来拆分这个字符,直到分解为基本部件为止(这样一个字符变成了一维的有序序列(
! (! 汉字图像的预处理
以宋体字作为处理图像,进行的预处理工作主要是二值化,平滑,归一化,去修饰笔画,
收稿日期:
第#期
吴迪,等:汉字数学表达式的改进
%%$
然后细化,最终得到图像的骨架图!
! ! " 汉字结构分解
作为一种架构式结构,汉字是由若干部件构成,这里的部件和普通意义上的部首不同,如果把文献[]部件的选取是为了方便汉字的处理,跟研究人员有关,是由后台系统完成的! " 的方法称为软切分的话,本文中的方法是硬切分! 软切分是按照区域生长法则来得到连通区但是这种方法主观性比较浓,而域,然后按照#个规则对连通区域进行合并或是继续切分! 且由于频繁的处理连通区域,所以速度也较慢! 本文根据汉字透光性、横和竖,把汉字分为以下几种结构:例子! 字核结构;" 左右结构;#上下结构;$特殊上下结构;%特殊下上结构! 如表$所示!
表$汉字结构代表
王字核
打左右
呆上下
口特殊上下
凶特殊下上
! ! #汉字部件选取
)此部分已经无横无竖了,例如“人”)左右结构的左! ! #! ! 汉字不可再被分解的条件$! %
部分,例如“什”的左部分! )该部分都是横或者都是竖! )有直接横贯整个部分的横和竖,进#&行特征横竖分析,如果不属于特殊结构,则是属于字核结构,否则按照特殊结构进行分解! )字符的透光性! 任何汉字结构,经! ! #! " 得到部件三步曲$过! " {(其中#(,,)是变量,分别代表汉字###’$%$$$$%,&}%,&是否被光线水平透过、竖直透过)都可以被初步分解为#种结其中第一种、构:! 字核结构;" 左右结构;#上下结构的一个! 第二种的右边结构和第三种可以继续下分,例如表%所示!
表%汉字结构代表丁!
八"
吕#
)根据字符的所有横竖继续分解! 表达式为’() ,() },意%(({*+%,, -. /*+&,, -. /%)&)
根据横的编码,义分别为该字符横的数量和每条横的编码,字符竖的数量和每条竖的编码! 就可以判断这个字的初步结构是! 准字核结构还是" 左右结构! 字符检测出来横,把这个横如果横是横贯整个字符,那么属于! ;如果横是分两截的,则是属于进行五段分,量化编码! 左部件已经是基本部件,右部件继续进入下一步分解! 竖类似处理,只不过竖如果是两截" !
分,则是#! 例如以下例子!
丁! (,)(,,):因为横竖是串通了整个字符内部,所以是字核结构;$$$$$$$$$$$$打! (,,):因为横被分成了两截,所以是左右结构;左边的不分析,继续分%$$’’’’’$$$
析右边的结构;再重新定位右边的范围,将右边作为进一步处理的对象!
)特征横、竖分析! 由于汉字信息量最大的是左上部和右下部的结构,所以我们提取以#下特征:顶横,次顶横,底横,西竖,东竖! 顶横就是处在顶层的横;次顶横是距顶层有限距离将他们的组合关的横;底横是每个部分最低层的横;西竖是最左边的竖;东竖是最右边的竖! 系一起分析,是得到特殊结构的关键! 例如“日”字,经过首步对字符透光分析,,) ) **+, 都为;接着对横竖分析,(,,,)(,,,),所以为准字核结构;最后分’#$$$$$$$$$$$$$$$%$$$$$$$$$$析特殊横竖关系,拥有顶横、底横、东竖、西竖,所以为特殊上下结构! 将所有的特征横竖去掉如此迭代的进行下去,直到此部分变成基本部件为止! 之后,对剩下的部分继续分析!
, , ,
延边大学学报(自然科学版)
第/!
卷
对每一个字符都进行以上三步,首先检验是否满足基本部件的条件,如果满足,停止分解;否则,继续分解,直到总之,汉字的分解和部件的取得可以用图! 表满足为止"
图! 中,黑色表示还可以继续分解的部分,需要进一步示"
校验是否可分解;灰色表示已经是基本部件,不需要分解"
! 汉字运算符号和运算规则
设! (" )为汉字的二值图像(" ,,如果其值#为整数),表示字符黑像素;如果其值为#,表示背景白像素$运为!
算符号规定为$种:,,,,,依次表示左右、上下、%&’%(’%’(%) ’在这里,用这$种运算符特殊上下、特殊下上、字核结构$号取代了文献[]中的+种运算符号,而且取得了相同的*效果$
定义!
可能是基本部件,设%,&为任意两个部件,
图!
汉字部件分解图
也可能是复合部件$如图, ,这是对运算符号的简单直观的描述,从左到右依次表示) %;’
%%&&;%’%&;%(’%&;%’(%&$
定义, 以上定义的运算符号的运算优先级为:优先级最高;) ’作为单操作数运算符,
,,,处于同一优先级" 同一优先级按照从左到右运算,括号优先%&’%(’%’(%是双操作数运算符,级别最高"
运算规律类似于文献[],+%&和’%满足结合而(和’是-(出自文献律、传递率和同一律" ’%(%. [])从中分化出来的,所以满足传递率和半同一+律"
定理!
则有:设%,&是汉字的两个部件,
)每个汉字的数学表达式是唯一的$)一个数! , 学表达式只能代表一个汉字$
证明
假设一个汉字既可以表示为%%&&,
这表明汉字既是上下结构,又可以表示为%’%&,
图,
运算符号的形象表示
才会出现又是左右结构$而按照本文的方法,总是横先分析,也就是说只有%%&&不成立时,同理,按照这种顺序关系,不可能出现一个汉字会有两个表示方式的时候$)的证明%’%&$,
证毕$过程与上面类似$
" 汉字部件的识别
上面介绍了部件的获取、运算符号和运算符号的运算规则,下面把他们联系起来考虑" 对得到的一个汉字二维图像,按照上面的方法分析汉字的结构得到汉字的部件,最终得到汉字编码的一维序列,如图/所示"
第! 期
吴迪,等:汉字数学表达式的改进
--!
图! 汉字编码示例
在文献[]中提取了#种部件特征,而本方法由于主要分析横和竖,所以只需提取$种" 特征就可以识别一个部件%我们把节点和弧称为部件的固有特征,通透性称为部件的统计特综上所述,汉字的特征矢量! " 征,把两者结合起来,就可以十分准确地描述部件%,&,(#&$
,其中#&为端点数,) %%&,’,((,() )$&为拐点数,%! 和%’分别为三叉点数和四叉点! ,’水平通透性数,&和’分别为撇和捺的数目,((和() 分别表示水平通透性和垂直通透性) 是水平方向上每两个偶数对点之间的距离的平均值,垂直通透性类似)
按照文献[]的方法,虽然可建立一个庞大的部件库,但在搜索时会很浪费时间) 为了" 加快搜索速度,提出以下方法:
)按照部件的位置来选取该部件所处表) 我们建立了" 张表格,分别是左部件表,右部*
例如*件表,上部件表,下部件表,特殊上部件表,特殊下部件表,字核部件表) +, +这种形式,我们在左部件表中找*,在右部件表中找+)
)在*)的基础上,通过该部件横竖的数量,确定自己处于哪一行) 表中都是以横竖的-数目来作为行坐标的)
)在-)的基础上,利用部件的特征矢量! 确定自己处于哪一列) !
下面举例来说明这个方法)
首先通过预处理,得到字符的骨架图) 然后按照三步曲进行字的分解,最终得到字体结构开! /心! *;兼(+如:二! *. . ++;*;+, +, %)(;过! *凡是(*((. +/. . +) +, +)%)+, /. +)%)!
右边的都查右部件表;+, 左边的都查左部件表,
凡是. 右边的都查下部+左边的都查上部件表,凡是0件表;凡是/. 都查字核部件表;. +左边的都查特殊上部件表,右边的都查特殊下部件表) ;这样,可以写出这些字的代码为:二! *1. +*1开! ;心! ();兼! ()/. ’111+, ! 1+, 111*+, 11. +();过! ((/))于是,得到字/. 21! *+, . ! 1. +*1%符的数学表达式形式,对照字符表就可以得出识别过程流程如图’字符的区位码%%
! 结论
图’
汉字数学表达式生成流程图
因为以往的汉字表达式大多数过多地考虑细节,以至于汉字表达方法的数据结构过于本文在文献[]的基础上,进一步简化复杂,参与运算的数据和数据结构间的关系也很复杂%" 了汉字的数学表达式形式%由于这种运算规则简单,所以简化了汉字处理方面的复杂性,可
%%(
延边大学学报(自然科学版)
第&" 卷
以应用在以下几个方面:存储每个汉字的数学表达式,和未知汉字相比较! ! 汉字识别," 互
因为有这些基本部件表和数学表达式,所以可以在没有汉字系统和联网上跨平台传递汉字!
不同汉字系统中构造汉字! 汉字部件的出现位置和频率,笔画#自动挖掘汉字的结构知识! 的复杂程度,汉字的结构知识都可以得到体现!
本方法还有待于完善与扩展的地方在于:由于结构分解中只需要提取横和竖,所以利用
[]" #或其他的方法提取手写体的横和竖,识别手写体汉字! 还有,汉字预模糊提取笔画的方法
[]" " 处理过程中也可以按照量化的完全基于汉字结构知识的直接抽取笔画的方法,提取汉字
的横和竖笔画! 参考文献:
[]张世辉,孔令富! 汉字识别与现状分析[]燕山大学学报,,():" $! %##&%’(&) ’*&) +!
[], ,[]%-./0123/4! 5627819-9-:3*; :? :112; :3-9-:3:? 683>A 1-9923; 6818; 921B $! C 899213D 2; :3-9-:3@@
,,:, 29921B %###%" ’#" *’%#! [], []&-8:/E ,F G 83! H9183B ? :1A 1-9923/6-32B 2; 6818; 92112; :3-9-:3$! @$0@8@@
,,():C 899213D 2; :3-9-:3" ++#%&" " " " ’) *" " K K ! @[]吴智标,夏莹,孙承鉴! 手写印刷体汉字相关属性关系图启发式匹配法[]计算机学报,,():($! " ++#" &&%&&*%&) !
[]夏莹,张昕中! 用于机器识别和学习的汉字表达式[]自动化学报,,():L $! " +K ) " %&&" %*&" L ! []孙星明,殷建平! 汉字的数学表达式研究[]计算机研究与发展,,():) $! %##%&+) ’#’*’" " ! []张问银,孙星明! 汉字数学表达式的自动生成[]计算机研究与发展,,():’$! %##((" L K (K *K L %!
[]王惠萍,张积家! 汉字整体和笔画频率对笔画认知的影响[]心理学报,,():K $! %##&&L " #" ’M %%! []郭小朝! 汉字特征分析与实验字取样策略[]人类功效学,,():+$! " +++L &" (M " K ! []4,[]," #2G 383-2J 0O :3! HO G P P G =B 91:R 2S T 918; 9:1O :1F 83>A 1-9923/6-32B 2/6818; 921B $! C 899213D 2; :3-9-:3@N @F0Q 0@,():" ++) %+" %" +) &*" +K #! []孙星明,杨茂江! 完全基于结构知识的汉字笔画抽取方法[]计算机研究与发展,,():" " $! %###&’L L (&*L L #!
! " $%&’" ’() %*"+) , ’" +) -. +/’0$’11-%(%*2, -(’1’. , +$+. ) ’$##
,/,$E UN -U VD :3*-V W/683*J :3@Q @@
(! ," $%&’" (&) ) ’, &" %-. /" (. " $(01" . 2() 3) +) 33" " ) (/(" " %/(7$(8/$(9(/:" %; /&7$(/" &&##%+2/($)#*+#45,4*644,5,
:X ,341) $+. ) :B 9:? 962B 91:R 2B 8126:1-P :398J 83>I219-; 8J J -32B 2
’82112B 239B 8-/6-32B 2; 6818; 921B-36-32B 2; 6818; *77777Q >7@/,962; :=B 28189-3; 6818; 921B ! 921B ! Y 8B 2>:3962A 6:J 2; 6818; 921B 91G ; 9G 18J ? 289G 12B 7Q 7@562B 83>LA 2J J *>2? -32>7J 8; 2B -3962; :-B B -389G 126-; 6=271:; 2B B 2>8; ; :1>-3:962:2189-:3J 8A B J -R 296277@97,,8J 2=18B B 92 V 9; 83=22T 923B -I 2J 8J -2>9:962? -2J >B B G ; 68B ; 6818; 92112; :3-9-:3329A :1R 9183B 8; 9-:3@Q Q 77@
,962962B 91G ; 9G 18J R 3:A J 2>2>-B ; :I 21? /6-32B 2; 6818; 921B ! @Q ::;;5’%$81>2; :
;;9-:3; 81>-38J ; :
汉字数学表达式的改进
作者:作者单位:刊名:英文刊名:年,卷(期):
吴迪, 崔荣一, 金长龙, WU Di, CUI Rong-yi, JIN Chang-long延边大学工学院计算机科学与技术系,吉林,延吉,133002延边大学学报(自然科学版)
JOURNAL OF YANBIAN UNIVERSITY(NATURAL SCIENCE)2005,31(3)
参考文献(11条)
1. 郭小朝 汉字特征分析与实验字取样策略 1999(03)
2. 王惠萍;张积家 汉字整体和笔画频率对笔画认知的影响[期刊论文]-心理学报 2003(10)3. 张问银;孙星明 汉字数学表达式的自动生成[期刊论文]-计算机研究与发展 2004(05)4. 孙星明;殷建平 汉字的数学表达式研究[期刊论文]-计算机研究与发展 2002(06)
5. 孙星明;杨茂江 完全基于结构知识的汉字笔画抽取方法[期刊论文]-计算机研究与发展 2000(05)
6. Yeung Daniel S;Fong H S A Fuzzy Substroke Extractor For Handwritten Chinese Characters[外文期刊]1996(12)
7. 夏莹;张昕中 用于机器识别和学习的汉字表达式 1986(03)
8. 吴智标;夏莹;孙承鉴 手写印刷体汉字相关属性关系图启发式匹配法 1990(03)
9. Liao C W;Huang J S A transformation invariant matching algorithm for handwritten Chinesecharacter recognition[外文期刊] 1990(11)
10. Li Z C;Sren C Y The partition-combination method for recognition of handwritten characters[外文期刊] 2000(8)
11. 张世辉;孔令富 汉字识别与现状分析[期刊论文]-燕山大学学报 2003(04)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_ybdxxb-zrkxb200503018.aspx