首页 基于笔划特征的手写汉字分类与识别字典的构造方法

基于笔划特征的手写汉字分类与识别字典的构造方法

举报
开通vip

基于笔划特征的手写汉字分类与识别字典的构造方法基于笔划特征的手写汉字分类与识别字典的构造方法 基于笔划特征的手写汉字分类与识别字典 的构造方法 第l1卷第2期 1998年6月 模式识别与人工智能 PR&AI ),11N02一 Jnne1998 , 基于笔划特征的手写汉字分类 与识别字典的构造方法 崔怀林 ,^—'''''一 陕西工学院电子工程系祝中723003)1 摘要 提出了基于笔划特征信息对手写汉字按其结构关系进行分类和用B树结构建立识别字典的新 方法,浚方法具有简单易行,分类能力强,识别速度快,字典维护方便等特点,...

基于笔划特征的手写汉字分类与识别字典的构造方法
基于笔划特征的手写汉字分类与识别字典的构造方法 基于笔划特征的手写汉字分类与识别字典 的构造方法 第l1卷第2期 1998年6月 模式识别与人工智能 PR&AI ),11N02一 Jnne1998 , 基于笔划特征的手写汉字分类 与识别字典的构造方法 崔怀林 ,^—'''''一 陕西工学院电子工程系祝中723003)1 摘要 提出了基于笔划特征信息对手写汉字按其结构关系进行分类和用B树结构建立识别字典的新 方法,浚方法具有简单易行,分类能力强,识别速度快,字典维护方便等特点,现已成功地用于AsT 386微机和FAX22传真机上所实现的成页手写双字(楷书1识j;I】系统中,其效果是令人满意的 葶.兰!兰竖,三盐塑三竺中囤法分娄号TP3914 l引言 汉字笔划及其位置关系是汉字的本质特征,是汉字结构描述的基础.尽管手写汉字变形较 大,但是其结构特征一般不会被破坏,因此,以抽取手写汉字笔划特征为基础,利用汉字笔划类 型,数日和由笔划所构成的部件与部件之间的结构关系以及部件内部各笔划的类,数目,型相对 位置关系等特征对手写汉字进行分类和匹配识别应该是一种自然而理想的方法 汉字笔划是指书写汉字时,次连续书写的部分,如一,l,/,L,乙等,它是汉字结构的基 元,正确而快速地抽取笔划当是汉字识别技术中关键的一环.通过对手写汉字点阵图的 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 ,我 们提出了一种手写汉字笔划直接抽取法[来提取手写汉字的横,竖,撇,捺四种基本笔划段,由基 本笔划段可合成手写汉字的各种笔划.一个笔划段用首尾二个座标表示为=(()()}. 整个汉字可表示为诸笔划段的集合c={s…li=l,2.,n} 2手写汉字识别的分类方法 21基于笔划数的第一级粗分类 汉字是由基本笔划组成的二维图形,不同的汉字其椅成的笔划类型和数目是不同的为此, 先选用笔划数作为粗分类特征对手写汉字进行第一级粗分类.据汉字字数随笔划数的变化近似 呈现正态分布的特点,在此拟对手写汉字以笔划数多少分为l6类,其类别与笔划数对应关系如 表l所示. 表1粗分类另与笔划数的关系 电子部预研基金资助珂c目 收稿日期:I996一__一25;修回日期:1997一f2-23 2期崔怀林:基于笔划特征的手写汉字分娄与识别字典的构造方法229 2.2基于结构关系的第二级粗分类 对手写汉字特点及结构分析,我们认为手写汉字笔划中点(坐标)位置能够直接集中反映笔 划在汉字中的位置及分布情况,并且发现手写汉字笔划中点投影与汉字的结构有 一定的联系. 对左右结构的手写汉字其横,撇,撩笔划中点在水平方向的投影分布较集中,且表现出有明显的 可聚类分组性,而其竖,撇,捺笔划在垂直方向的投影的分布较均匀则不易聚类分组对上下 结构的汉字其竖,撇撩笔划中点在垂直方向上投影点分布较集中且易聚类分组,而其横,撤, 捺笔划中点在水平方向的投影点分布较均匀就不易分组;对包含结构的汉字其笔划中点在水平 和垂直方向的投影点的分布则都较均匀而不易聚类分组.因此,用笔划直接抽取算法[l提取手 写汉字的横,竖,撇,撩四种基本笔4后,将汉字横,撇,撩笔划中点向水平方向投影,其竖, 撇捺笔划向垂直方向投影,并对其投影点排序,聚类,分组.利用水平,垂直方向上可聚类组 并结合笔划类型以及由笔划所构成的部件之间有无缝隙等信息即可之间的关系, 判别手写汉字 的结构关系,以此结构关系分割组成该字的各部件,将所分割的部件视为"新字继续按同样的 方法处理即可得知该部件的结构关系.这样就能以嵌套方式得到构成汉字的部件之间以及部件 内部各笔划之间的结构关系及其相对位置据此方法对手写汉字粗分类就将结构关系相同的汉 字分副同一候选类集中 2.3细分类 粗分类后,尽管笔划数和结构关系相同的汉字被分到同一候选类集中,但是同…类中组成 各候选字的部件可以不同笔划数相同的部件其笔类型和笔划位置亦可不同,为此,选用第一 层结构关系粗分类后的两部件笔划数,笔4类型,位置等特征来对汉字进行细分类,从而使各类 候选字数达到匹配识别的要求.根据粗分类的结果不同分别采用不同的算法进行细分类. 1)左右或上下结构的汉字: (1)分别按第一部件(左或上部件),第二部件(右或下部件)的笔划数分类,部件笔划数与细 分类类别关系如表2所示j(2)分别按第一部件,第二部件中最长和晟短笔划的笔划类型分类; (3)第一,第二部件分别按笔划中点位置排序(4)分别按第一,第二部件中的第一笔划和最后 … 笔划的笔划类型分类;(5J输出细分类码 2)包含结构的汉字 (1j分别按其横,竖,撇,捺笔划数分类;(2)按长横和长竖笔划数分类;(3)按最长和最短 笔划类型分类;(4)分别按第一,第二和最后两笔划的笔划类型分类;?5输出细分类码. 表2部件笔划数与细分类类别关系 细分类别12346678 部件笔划数1—2345678—9兰10 2.4分类编码 手写汉字经粗,细分类后以编码方式给出其分类结果,分类码由32位二进制数构成,用 Do一表示,其中:Do—D表示粗分类结果,Dn一.表示细分类结果在结构关系分 类编码中,考虑将字(部件J的结构关系分成四种,即左右,上下,包含关系及基本部件(即偏旁 部首),其编码用二位二进制数表示,规定o0表示包含关系,o1表示左右关系,10表示上下关 系,11表示基本部件.在细分类中,横,竖,撇,撩四种笔划类型分别用00,m,lD,】1编码表 示Do—D各位的含义为:DD表示第一级粗分类中按笔划数所分16类的分类结 果,DDs表示第二级粗分类中按汉字的第一层结构关系的分类结果,D6D,DD分别表示按 模式识别与人工智能卷 汉字第一层结构关系分类后的汉字的第一和第二部件结构关系的分类结果.在细分类编码中,对 粗分类所分的左右或上下结构汉字,DDnDD分别表示汉字第一层结构关系分 类后的汉字的第一和第二部件的笔划数所分的8类分类结果,DDDsD分别表示汉字第 一 层结构关系分类后的汉字的第一和第二部件中的最长笔划的笔划类型编码,DzoD,D..Dz: 分别表示汉字第一层结构关系分类后的汉字的第一和第二部件中的最短笔划的笔划类型编码j D.D,D2D.分别表示汉字第一层结构关系分类后的汉字的第一和第二部件中的第一笔笔划 类型编码,DzeD,Do分别表示汉字第一层结构关系分类后的汉字的第一和第二部件中的 最后一笔笔划类型编码;对粗分类所分的包含结构关系的汉字,DoDD2D…口1Dl5,DD7 分别表示以其横,竖,撇,撩笔划数的分类结果,D1s口1为长横和长竖笔划数的分类结果, D20D?l,D22D23分别为以最长和最短笔划类型分类的编码,DD‰D2,口2D叭DDD3f分 别为第一,第二和最后两笔划的笔划类型编码.图l给出手写"埃"字笔划抽取与结构关系分类 结果,图中用(^,日),s),(P),(n.N)分别标记用笔划直接抽取法…抽取的横,竖,撇,捺笔 划,数字l,2"分别表示按结构关系分类时的分类层数该字的粗分类码为 10110]1110 细分类码为DIO11O0110o0110o1O11l1 - …'- -^? ??-?…一?2 …??…- …?…-? …??…一 …??…+… ? ……+十,, …………十 ? ^………+ 一…-…? 一?.?? …+抖' …-…-?.… 一?…?+… …??…?…… …??……… j?2赢222 P-.--…N 图l手写埃字笔划抽取与结构关系分类示意图 2.5分类实验结果 经粗,细分类实验测试,书写工整的3775个(国标一级)手写体汉字被分为3248类, 其中 最大类候选字7个,最小类候选字1个,平均每类116个字,平均分类速度约9.2字/秒.分类 结果如表3所示. 裹3全部一级手写体汉字分类结果 类中字数235 娄数28273ll66251252 所占比例%87.049582030.76036【)15006 2期崔怀林:基于笔划特征的于写汉字分娄t识别字典的构造方法 3识别字典与识别过程 识别字典的表示形式和制作方法直接关系到系统的识别速度与只别正确率.为能建立一个 典型的并具有较强容错能力的高质量字典,我们选择不同职业的8人书写一级汉字(3775个),每 人每字书写2个样本,再从由中科院自动化所智能系统研究部所建立的手写汉字库中每字选9 个样本,这样一级汉字中每字有25个样本,共计约10万作为建立识别字典所用的手写汉字样本 库. 手写汉字样本库中的每个子样经笔划特征抽取,粗,细分类后,将所获得的分类码进行二 十进制转换,把转换的十进制结果作为汉字的第一特征码,对整字按笔划中点位置排序,选其 前5个笔划类型编码(不足5笔划的汉字先按其实际笔划数类型编码,最后用00补充编码) 并进行二十进制转换,把转换的十进制结果作为汉字的第二特征码用以识别细分类后的重码 字由第一特征,第二特征码和区位码构成对应汉字的 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 .对约l0万个模板进行排 序和有效 地组织后再用于建立识别字典. 识别字典由模板数据记录类型文件和与之 对应的B一树索引文件构成.模板数据记录结构 由第一特征码,第二特征码,重码字数和区位码 而构成.B树是由页构造的B,树中页结构 如图2所示,其中每个项包含一个键字符串,数 据参考及页参考在B树中,由页参考指向的 页,其上面有另外一些带键字符串的项,而所有 这些键都大于和页参考联结的键由于每页上的 页参考都是排序的,因而对给定的键字符串从 根页开始通过把给定键和页上的其它键进行比 较即可找到台适的孩子页,从而完成与模板的匹 计魏 附加页参考 键字符申 粒据参考I面参考 键字符串 数据参考f页参考 键字符串 数据参考l珂参考 这联的页参考 这十页的最岳有效项 指向键小于这页的页 项弓『 项号2 配和识别.图2B+树中页结构 在识别过程中,首先输入手写汉字样张,经行,列分割出待识别汉字字图,通过特征 提取和 粗,细分类获得待识别汉字的第一特征码和第二特征码,由第一特征码通过B+树索引文件定位 所表示的第一汉字,按照该特在码的重码字个数,折半查找匹配第二特在码,若匹配成功,即输 出识别结果,否则,拒识对拒识的或误识的汉字可按区位码顺序重新输入,让机器对其自动进 行学习,最后将各汉字的学习结果自动加入到识别字典中,从而可不断地充实,完善识别字典, 增强系统识别能力. 4实验识别系统结果 本文提出的基于笔划特征信息的汉字分类和识别字典的建立方法现已成功的用于由以AST 386/33为主机的微机系统和作为输入设备的FAX-22传真机而构成的成页手写汉字识别系统中. 经实验测试,目前系统达到的主要指标为:(1)识别字数为37了5(一级汉字)个;(2】汉字点阵大 小为72×50;(3)每页字数20×15;(4)输入速度12秒/页;(5)平均识别速度1.46字/秒;(6) 学习样本识别率大于086%,未学习样本,识别率大于942%;(7)字体限制为书写工整的楷书,最 大字为2号字 模式识别与人工智能11卷 【1] ?2 _引 『41 参考文献 崔怀韩.一种新的手写汉字笔螂直接抽取算法陕西工学院.1994.10f2)11--17 崔怀韩,赶树芗.手写汉字识别粗分类方法的研究.电子科技大学.1996,25 ?)311---315 LanL.1lenCYStltlIrCI删i6cRtiodneI… i0nMatchlngofTotallyUncons~raiiied1hrdwrEtenZipcnde NumbersPa~ternRscol~nifion,I988,21(1):1931 XieSL.OnMachine[~cngnifionof[[andprintedCltin~ChRrtehyIr,-at.rn1x10I1Pate1n]teengnitifil1. 1988,21(1):1---7 KimaraFShddh~MHandwrittenNumeralR~ngnlt.ionBed01lMI1ItipleAIgo,ithinsP&tternR~cognltion 19g1.24f10:076—83 THEMETH0DS0FCLASSIFICAT10NAND REC0GNIT10NDICT10NARYBUILDINGF0R HANDPRINTEDCHINESECHARACTERS REC0GNIT10NBASED0NSTR0KESFEATURE C1liH1laiIin LDept..fElectronicEng..Shaanxi[nst~hge0|Technotqly.tfanzhong,723003 ABSTRACT Thenewmethodsofclassificationandrecognitiondlction~rybuiIdittgfor]taadprintedChillesechar- actersrecrgnitionbayedonstrokesfeatureispresentedThesemethodsaredmractorizedbysimple alogrithm,powerfulclaasific~tion.fastrecognitionanddictionarymainte11~iceTheyhavebeen successfullyusedinhandprintedChinesecharacterssystembasedonAST386/33ComputeraridFAX一22 faxmachinewiths~tisfm:toryresults. KeyWordsHandprlntedChineseCharactersRecognition,ChineseChglaztersCiassificatioit R~ecogrdtlonDictionary
本文档为【基于笔划特征的手写汉字分类与识别字典的构造方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_511210
暂无简介~
格式:doc
大小:27KB
软件:Word
页数:13
分类:生活休闲
上传时间:2017-09-18
浏览量:26