【doc】 二值化修正法及在繁体手写字库构建中的应用
二值化修正法及在繁体手写字库构建中的
应用
二值化修正法及在繁体手写字库构建中的应用
罗旺亮金连文
(华南理工大学电子与信息学院,广州510640)
E—mail:luowl@scut.edu.cn
摘要文章建构了一个基于灰度的繁体手写汉字字库建库系统,该系统是由二值化,汉字切分,二值化修正,人工修正
切分结果,数据压缩存储等几部分组成.其中二值化算法在最大限度地保证字库的分辨率及质量方面起着重要作用文
章在最大类间方差法(即大津法)及局部阀值法的基础上,结合汉字切分过程的特点,提出了一种二值化修正方法.实验
结果表明该方法的效果比起传统的方法有显着提高,能有效地处理字库样本中由于笔迹灰度不均匀所带来的问题.
关键词繁体手写汉字二值化二值化修正切分
文章编号1002—8331-(2005)35—0177—03文献标识码A中图分类号TP391
ANovelThresholdingRe—correctionMethodforBuildingTradition
ChineseHandwrittenCharacterSampleDatabase
LuoWangliangJinLianwen
(DepartmentofElectronic&InformationEngineering,SCUT,Guangzhou510640)
Abstract:ThispaperdescribesatraditionalChinesehandwrittencharactersampledatabasebuildingsystem,which
containstheprocessofthresholding,charactersegmentation,thresholdingre-correction,manualadjustmentanddata
compression.Thresholdingalgorithmplaysakeyroleforthequalityofthedatabase.BasedonanimprovedOtsu
algorithmandlocalthresholdmethod,anewthresholdingre-correctionmethodisproposed.Experimentsshowthatthe
proposedmethodworksmuchbetterandeffectivethanconventionalmethod,anditcansolvetheproblemofbad
samplingimagescausedbydifferentpenintensityverywel1.
Keywords:traditionalChinesehandwrittencharacter,threshold,thresholdingre-correction,charactersegmentation
1引言
建立字库的工作在手写体汉字研究中起着支持性的重要
作用,现今世界上各种常用文字都有其相对应的字库[8-”1,而其
中可用的汉字字库多为一级字库,二级和繁体字库非常少见.
为了扩大汉字手写体识别研究的范围,本文建构了一个繁体汉
字手写体字库,这个系统的完成,对我们现在的手写体汉字研
究来说具有重要的现实意义.如图1.本系统有二值化,汉字切
分,二值化修正,人工修正切分结果,压缩保存汉字笔画数据建
库五个主要步骤.在这个字库里面包含了16个符号:一一一一
一一一rILI一”×,$,和3890个汉字,其中绝大部分是繁体
字,如:驮鄹I鸠僮侥僭偻儒倔割劂匮厥耆呕嗅嗅啧图圃麈塾毒;
还有一些非常用字.如:嚯癍尢己巳弋尹壬吊爻丕仕册仟卮叻
弁弘弗氐汜疋乩互伉仳兕.目前已完成了一百多位志愿者手写
的汉字
原
蜇一
象
精确化处理
l一?
图1建库
流程
快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计
图
数
据
库
一
直以来.二值化算法的瓶颈都是在全局或局部上无法完
全区别外来噪声与本来就不明显的前景.在脱机汉字识别领
域,有不少无法识别的原因是污迹或扫描不当,也有不少样本
因此被放弃.本文根据其中一个特点为前提,实现了可适用于
脱机汉字领域的二值化算法流程,并提出一种局部二值化修正
方法.基本解决了这个问题,在其中取得了较好的处理效果.
2二值化处理
首先.手写者
书
关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf
写的字帖通过光电扫描仪转换为文本图
象,由于纸张褶皱,扫描仪使用问题等多种干扰因素的存在,这
个模数转化过程不可避免地使输出的带灰度电平的数字信号
带有干扰和噪声.典型的例子见图2.没有经过处理直接扫描
成二值图象的样本会为建库带来困难.因此,以二值化为主的
切分预处理是必须进行的一个重要过程.普适的阈值选取方法
应满足不受图象质量及图象类型的限制,能保留足够的图象特
征信息,可实现对不同图象阈值的自动化选择,时间开销可以
忍受等几方面的要求.
本文使用的二值化基本算法有多种Il1,常用的有基于均值
方差法,最小误差法,迭代法等,以基于均值方差法为例,在这
种算法中的阀值.是用图象灰度的均值乘以一个预定的系数再
加上其方差乘以另一个系数.这种方法比一般只基于均值的方
法效果要好,阀值能比较准确地簿孵舨圣莲曦域瞌鄂簿融醒唠蝻鲰好鸸考蓦畦
鲰拳横{辜簿翅船瑚啸斑畦蟛砥艘镄鹆磋囊%睇
髋霉li肋触鬟骜毳啄撒蘸糯直昂鸬鸥褐娼甓
膀蹑螽辔磋毅瑚蹬在壤碰莲轰露铷艏箍蠼趱娃
繇敏璐弱巷嗣缝鹳粒廊囊瘟步研盔
.t
i..
r霜?同J嚼-_._一?—
_盎警未==曼?,
胡!c酿麟拓镢绉寝谨碍锸轷硬旋诌镶镀蛹镟辅
镁诵锈镬雅壤奋辅馅鸬鸩鸱董鹭鸠鹆鹤鸱鹅鹉
鹜鹅鹅鸦骜鹭蓐马妨痫痹盎疼密霉窟横植臻}聩青炙
囔锹饭I敏瓤颢?l蚝蛹睡埤镁宪遣缀鬟茬笔舞
算耸囊掀轻砧确辫糇02x97单字直方图
图3二值化结果直方图
3局部二值化
一
般来说.一幅最普通的A4幅面的图象的长度和宽度都
至少有2000多个像素点,而本文所用的字帖在扫描后也都是
这个尺寸大小.虽然大津法对扫描的字帖图象非常切合,但对
于如此大的图象,实际上单一个阀值是无法得到最好的二值化
结果的.一般对大图象求阀值所用的解决办法是:先把整幅图
象预切为数幅大小均等的小图象.然后对每幅小图象都单独使
用二值化算法寻找阀值,再把二值化后的小点阵拼合起来,得
到结果,这种算法思想就是局部二值化.
笔者对这种局部阀值法进行了改进:根据图象局部灰度平
均值预切图象.可改进一些质量较差的扫描图象的局部二值化
效果,但从理论可以知道,这种方法预切的小图象数目越多,虽
然最后的二值化结果越好,但算法的执行速度会越慢.实验中
也正验证了这一点.正如前文所说.一个阈值选取方法的普适
性是与时间开销息息相关的.于是本文又基于局部二值化,提
出了下文的二值化修正算法,在进行二值化修正之前,需要对
汉字进行切分处理.
(5)4汉字切分
从最小灰度值L到最大灰度值日遍历k,能令下式类间方
差函数取得最大值的灰度值k即为最佳阀值:
)=0()(g--go(k))l()(l())z一
()go(k)z+?l()()()(6)
一
方面.由于本文在应用下文的局部二值化和二值化修正
时,要对不同区域做多次的二值化运算,对基本的二值化算法
本身的速度有较高的要求,从提高速度的角度看,在程序实现
时优化的大津法其速度可以满足要求.另一方面,从稳定性出
发,在建库过程中发现这种方法对各种样本的效果都不错,这
是因为大津法是基于直方图双峰情况的,在前景与背景灰度差
大的前提下适用性强,本文统计了大量的目标样本的直方图,
发现字帖的扫描图象虽然双峰特征不够明显,但前景与背景灰
度差是可以区分的,符合这种要求,这也是本文选择大津法的
主要原因.如图3
图3中,(a)图是一幅2044x2642的样本的直方图,(b)图
是其中一个102~97的单字的直方图,为方便观查看,图3中均
1782005.35计算机工程与应用
在本文的研究对象——字帖字本中,是采用传统的行字切
分算法——投影法.即分别对图象点阵区域进行行(轴),列
(y轴)方向上的投影,分别得到横向和纵向的黑像素的统计直
方图.字符点阵区域在直方图上呈现出波峰状,而字符间的空
隙在直方图上呈现出波谷状,如图4.
???
???
图4典型的列切分示意
以此为基础,加上必要的控制和修正措施,首先由行切分
得到一行行文本字行,然后在文本字行中进行列切分,得到一
个个单独的汉字字符点阵.
由于本文应用对象的特殊性——繁体汉字结构复杂,书写
者书写字体过大.在这个过程最突出的问题是连字难以切分,
这个问题是综合一般的解决方法t5-7].用预设的平均高度,宽度
加以控制,得出第一次结果,再统计高度与宽度的均值,方差用
以对结果进行反复的修正,分割和合并.实验结果表明:这种方
法在汉字字帖切分中是有效的,对大部分的样本可达到99%以
上的切分正确率.在情况较为恶劣的样本中可达到90%以上的
正确率.
5二值化修正方法
由于书写者书写力度不均匀,字与字之间信息完全独立.
会导致经常出现一些局部灰度变化过快的情况,这样会造成整
幅图象或某一个预切的区域的灰度直方图出现波谷不明显甚
至多波峰,不利于寻找二值化的阀值.虽然一般可以满足行字
切分的要求,但往往会造成局部的信息丢失.结果必然是降低
了字库的质量,如图5.
图5局部灰度变化过快
笔者应用了上文中提到的局部二值化方法,也无法完全解
决这种问题,而且运算时间与预切的子图象数量,也即二值化
效果成正比,这一点大大削弱了这种方法的实用性.针对本文
研究对象的特殊性,结合文本切分步骤,本文提出一种基于局
部二值化思想的二值化算法——二值化修正.
这种方法的原理是:利用文本切分后得到的文字方框信
息,再一次在原图中进行局部二值化.一般来说,书写者在书写
同一个字的时候,所用的力度应该是比较均匀的,笔画与笔画
之间存在着相互联系,书写单字时出现灰度变化过快的几率不
大,如果能在包含单独一个字的最小方框内进行局部二值化,
就可达到二值化的最佳效果.寻找到令二值化误差最小的阀
值,提高分辨率.在适用性方面,由于建库乃至一般OCR系统
都需要行字切分这个步骤.如果之前的二值化能保证大体切分
的效果.那切分结果中每一个字被包含的最小方框便是局部二
值化的最佳区域.这样只要系统包含了文本切分这个步骤,就
可以按照这个方法应用.借助行字切分提供的区域信息优化二
值化的效果,如图6所示.
图7,图9是一个典型的二值化修正的应用例子.其中字
与字之间的灰度差异很大的问题.会给传统的二值化方法带来
很大的困难,这也从一方面验证了”同一个字笔画灰度差异不
大”这个前提.
图7这幅截取出来的图象经几种不同的局部二值化后的
邋旅赴灾笾,,\i
圈主{
图6二值化修正区域示意图7局部灰度差异大
结果如图8,原图中笔固较淡的字都多多少少丢失一些信
息,出现程度不同的断笔现象,最严重的如”笕”字,就丢失了太
多的信息,使用一般的图象处理作为补救措施也无法再现它的
原始字型.这样的结果对整个字库的质量来说是有害的.
癍寥渔楼癍蒌硷藩
之罕?遗掺毒迂,
产鹾监严硎f}鹾监L译
(a)(b)
癍霎恤楼癍雾硷楼
!娶,
孥量,
鳓卤差监酾鹾韪L译
(c)(d)
图8对图7分别使用了不同的局部二值化的效果
而经二值化修正后的效果如图9,所有字的二值化效果都
很好.这个步骤使字库的分辨率大大提高了.
直癍塞褛
.
笼溢一
二篷曼替鼬琏
图9对图7使用了二值化修正的效果
经大量实验证明.这个算法可最大限度地达到二值化的效
果.另一方面,在这个二值化修正算法中,其作用对象只是各个
方框内的区域.二值化所要计算的内容被大大减少了,复杂度
也大大降低了.无论是使用一般的二值化方法还是着重速度的
二值化方法,均可满足速度与质量的要求,这使得实际上这个
过程的执行时间非常短.在实验中,我们使用大津法作为内核,
这个步骤在一般1G处理器的机器上只需要1s左右的时间.
综上所述,本文认为二值化修正的算法有其实用性与普适
性.不只可以作为精确化处理应用在字帖中,也可作为预处理
的一环加入到一般的脱机汉字识别系统甚至更一般的以脱机
汉字为对象的应用中,提高预处理的质量.
6结论
本文建构的繁体汉字手写体字库及其建构系统的完成,为
我们接下来的手写体汉字研究提供了重要的支持.经过大量的
实验应用证明.本文针对样本的特性,开发应用的几种二值化
(下转232页)
计算机_T程与应用2005.35179
3.5代码实现
我们的系统采用的是B/S结构.用ASP+XML实现.
数据的录入是存在XML数据岛中的,这里只给出XML数
据岛的定义.
<xmlid=“xmlData”>
<data>
<clientCode><//clientC,ode>
//客户编码
<property1></propertyl>
<property2></property2>
<property3></property3>
//条件属性
<methodl></?method1>
<method2></method:t2>
//目标属性
</data>
</xml>
每个客户的实验数据都存在一个xml数据岛的记录集中.
本文只给出计算fu:zzy集合()的实现代码,其他类同.
DimobjxmlDom,ObjRootNode,objNodeList,objNode
SetobjxmlDom=Server.CreateObjeet(“MSXML2,DOMDocument4.0”)
objxmlDom.ad(Server.MapPath(“dataxm1.xml”))?dataxml,zcml
为以上实验数据所在页面.
SetobjRootNode---objxmlDom.documentElement
„搜索所有的节点
IfobjRootNode.hasChildNodes()Then
CPimnNam
nNum=objRootNode.ehildNodes.1ength
DimobjFuzzy(nNum.1)
Dim
dimnMethodl,sClientCode
ForEachobjNodeListinobjRootNode.childNodes
i=0
sClientCode=objNodeList.selectSingleNode(“ClientCode”).text
nMethod=objNodeList.selectSingleNode(“Method1”).,text
objFuzzy(i,O)=sClientCode
SelectcaseCint(nMethod)
Case0
……
„根据给定的fuzzy规则.将取得的目标属性转
换成相应的fuzzy值,赋予objFuzzy数组中.
EndSelteet
i=i+1
Next
EndIf
SetobjxmlDom=Nothing
„最后需要将objFuzzy数组里的数据存到相应数据库中的表中.
4结论
经过对客户属性数据的实际计算,可以从众多客户信用等
级评定方法中找到一种比较合理客观的方法.利用目标信息系
统上fuzzy规则的知识发现不仅可在集成化的CRM中作为一
种客户评价算法,还可编制成独立的客户评估软件系统.为客
户管理和制定营销策略提供依据.
目前,赊销已经成为中国各行业市场中主要的交易方式.
作为一种有效的竞争手段和促销手段,赊销能够为企业带来巨
大利益.同时,伴随着赊销产生的商业信用风险以及对这种风
险的管理就变得越来越重要了.应用表明,目标信息系统上
fuzzy规则的知识发现在CRM中为企业制定各种各样的评定
方法管理客户,降低商业风险起到了很好的参考和决定作用.
(收稿日期:2005年3月)
参考文献
1.Grzymala-Busse.ManageingUneertainityinExpertsystem【M】.Kluwer
AcademicPublisher,1991
2.ZHANGWei,WUWei-zhi.KnowledgeReductionsinInformation
SystemswithFuzzyDecisions[J].JournalofEngineeringMathematics,
2o03;(5):53-58
3.张文修,梁怡,吴伟志.信息系统与知识发现[M】.科学出版社,2003—09
4.罗鸿,王忠民.ERP原理?
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
?实施[M】.电子工业出版社,2003—01:
229,233
5.黄宪仁.营业管理实务[MI.广东经济出版社.2000-05:180-204
6.张文修,徐宗本,梁怡等.包含度理论[J】.模糊系统与数学,1996;10
(4):1—9
(上接179页)
算法能保证切分前的分辨率质量;汉字切分步骤对大部分的样
本可达到99%以上的切分正确率,再使用各种手动修改功能则
可快速地达到100%的正确率:本文根据”同一个字笔画灰度差
异不大”提出来的二值化修正算法结合了切分结果,极大地提
高了字库的质量,也有一定的推广意义.
致谢:本文实验数据由香港大学计算机科学系Dr.Huo
Qiang提供.(收稿日期:2005年6月)
参考文献
1.GerhardXRitter,JosephNWilson.ComputerVisionAlgorithmsin
ImageAlgebraSECONDEDITION[M].CRCPressLLC,2001:137-153
2.付忠良.图象阈值选取方法——0tsu方法的推广[J】.计算机应
用,2000;
20(5)
3.高晓丽,侯蓝田.激光雕刻中图象处理的二值化处理.激光杂志,2004;
25(4)
4.吴冰,秦志远.自动确定图象二值化最佳阈值的新方法[J】.测绘学院
学
2322005.35计算机工程与应用
报,2001;18(4)
5朋德烈,柳健,胡家忠等.一种改进的手写汉字文本切分算法[J].华中
理
工大学,2000;28(2)
6.赵姝岩,郭捷,施鹏飞.基于笔画分析和背景细化的粘连手写汉字切
分叨.
上海交通大学,2003;37(9)
7.赵宇明,江兴智,施鹏飞.基于笔划提取和合并的离线手写体汉字字
符
切分算法[J1.红外与激光工程,2002;31(1)
8.Sheng-LinChou.Shiaw-ShianYu.SortingQualitiesofHandwritten
ChineseCharactersforSettingUpaResearchDatabase.IEEE1993
0—8186—4960.一7/93:474一,477
9.0ndrejVelek,Cheng-LinLiu,MasakiNakagawa.GeneratingRealistic
KanjiCharacterImagesfromOn-LinePatterns.IEEE20010-7695-
1263—1/0:55&560
VMarti,HBunke.TheIAM—database:anEnglishsentence 10.U—
databaseforofflinehandwritingrecognition.JJDAR,2002;5:3946
11.MasakiNakagawa,KaoruMatsumoto.Collectionofon-linehandwrit-
tenJapanesecharacterpatterndatabasesandtheiranalyses.Disi~
ObjectMentifier(DOI)10.1007/sl00B2—0O4一-0125--4IJDAR,2004