汉语语言的无词曲分词模型系统

汉语语言的无词曲分词模型系统汉语语言的无词曲分词模型系统 8计算机应用研究 q,.l"' 汉语语言的无词典分词模型系统苎查扮圭查盛陈桂林fj1{ (上海交通大学图象处理与模式识别研究所20oo3o) 摘要本文主要从知识的自动获取出发,介绍了研究申的汉语语言的无词典分词模型系统.通过算法的自然语言描述,阐述了模型的思想还需解决的几个问题. 关键词宅圭篮皇盐珲分析了它与传统方法相比的优点,提出了要使系统达到实用知识自动获取分词模型 l引言现代计算机的发展.智能化是一个主要方向从广义上来说,计算机的智能是使计算...

汉语语言的无词曲分词模型系统 8计算机应用研究 q,.l"' 汉语语言的无词典分词模型系统苎查扮圭查盛陈桂林fj1{ (上海交通大学图象处理与模式识别研究所20oo3o) 摘要本文主要从知识的自动获取出发,介绍了研究申的汉语语言的无词典分词模型系统.通过算法的自然语言描述,阐述了模型的思想还需解决的几个问题. 关键词宅圭篮皇盐珲分析了它与传统方法相比的优点,提出了要使系统达到实用知识自动获取分词模型 l引言现代计算机的发展.智能化是一个主要方向从广义上来说,计算机的智能是使计算机具有像人那样的学习知识,存储知识,并利用知识进行逻辑推理的功能.且具备一定的与人交互的能力.而语言则是人机交互的未来趋势让计算机具有智能的传统做法是将人的知识灌输给计算机.让计算机具备人已具有的知识因而.人们研究的重点是知识在计算机中怎样表示(知识表示) 和计算机怎样利用知识库和规则库进行问题的求解然而.现在人们的研究重点已经转移到了教计算机怎样自动去获取知识了知识工程作为一个专门的学科已经吸引了众多的学者,KDD更是自90年代初以来的研究热点,但是. 在语言文字中的知识白动获取,尤其是在汉语语言文字方面,所受到的关注并不多.本文结合作者当前的研究,介绍如何在没有词典的情况下实现汉语文本的分诃这实际上是文字信息中自动获取知识的一种方法. 2汉语语言的无词典分词模型系统研究汉语语言文字的处理与西文相比的一个明显的不同是汉语没有词与词之间的显式分隔标记.而实际上,我们认为,还有一个不明显但很伤脑筋的问题是对"什么是词7""汉语究竟有多少个词,"等这样的许多问题,迄今还是语法学家争论不体的问题,所以. 汉语分词虽然已经有人做了二十多年的研究,现在还是汉语语言文字处理的瓶颈_】1而如果不进行分词, 中文信息处理的其它很多研究就没办法进行汉语分词的传统做法是将文本中的字串和词典进行匹配根据这一指导思想.在具体的实现上,人们提出了许多算法和思想.例如,在文本的扫描顺序上, 已有正向扫描,逆向扫描,正向和逆向扫描相结台等方法;在匹配原则上,有最长匹配,最常匹配等多种原则.但是,无论是哪种扫描方法,采用何种匹配原则,它们都没能从根本上解决"错分",尤其是"歧收稿日期:1999年3月16日 z} 义词的划分. 上述问题的根本在于没有一部完备的汉语词典, 进而也没有完美的扫描和匹配规则既然连汉语语法专家也不能回答什么是词和有多少词的问题.那么. 何不让计算机自己去决定什么是词,决定怎样分词呢?基于这种思想.我们提出了下面的模型.其根本思想是组成一个词的汉字经常在文中以相同的顺序重复出现 2.1系统模型介绍 De~1按宇索引设一个文本D可以描迷为D】.,为字符二元组集合{(.Pl2.p2).,称为该文本的按宇索引,其中,二元组()中,整数n为,/E文本中的位置 De,2宇共现设串『+』…毋+仆.所产生的按字索引为 {.(..P,)l("+』),…,(+柙P,+),0,+州.+舯+』.} 具南s}?s计{:sl++l,p计l:p.pI++l:P+P1? 则称(或,+f+)为2字符长度的1次共现. 依次类推.可以定义:2字符长度的^次共现.进一步.可定义:长度的"次共现. 例如,对文本"我们爱我们的祖国一中国.因为我们是中国人"按上述De,l和DeE2.有按宇索引 {(我,1)|(们,2)1(爱,3),(我.4),(们,5).(的, 6),(祖,7),(国,8),C一,9)I(中.10)I(国,11), (..12),(困.13),(为,l4).(我,15)I(们,16),(是, 17),(中,18),(国,19),(人,20),(.,21)),而且, 很容易看出字串我们"为2字符的3次共现,中国" 是2字符的2次共现. 计算机如何确定字共现"呢?我们仿照图灵机设计了一个处理过程,在该过程中,扫描头每次读入一个字符.而输入带则是特处理的文本字符流算法1: 1)将文本读^到一个字符串数组中. 2)将数组中所有为标点符号以及结构性标记字 "的",是的位置填为空格,将它们的信息记录在如下结构中: ,./ ,j午第1O期韩客松等:汉语语言的无词典分词模型系统.9 宇车l车庄l车?斑D卜-十—位iI 图I词存储结栲 3)对数组中所有非空格字符寻找数组中与相同的字符 Iff找到) a.记珈.的额欢及各个也置 b然后查找与.+』相同的出现{ c.如果直到并且频扶和肭颇横幅同,则一直进行到 ?Si+k.它无相同宇串或额敬不同于l钓额敢; d将i十1..i+k-I宇串,它的长度和频礁记录到圈1的词结构中,井将所有的i+1..坼J出现位置置为空格: e将扫描}到+啦置 } EL$E { 扫描头指到+位置r处理J+J为开头的宇串 4)将数组中非空格的"残田字串"作为"词"也记录到词结构中去. 5)结束. 对于上述例子,其处理过程如图2 舳 1匡圈{}螫词结构就记录了文本分词后的所有信息. 2.2横型性能分析该系统的一个明显好处是它能分出"新词.也就是那些一般汉语词表中投有的怪词".只要它在文本中出现两次,就可以把它正确地分出来.即使它在文献中出现一次,它还仍有可能在算法的第4)步中被正确地分割出来所,该分诃方法对象档案之类的文献具有较好的处理能力,因为在档案文献中经常丈量的出现各种人名,地名等专有名诃,而传统的匹配方法一般对词典中没有的专有名词处理能力是较弱的从算法可以很容易地看出,该算法在计算机实现时可以做到"一次扫描",因为填空符"和"找宇共现"可以在一次串行处理中完成. 显然这是一个很粗糙的模型,它的分词速度还是一个值得探讨的问题.质量也没有完全可靠的验证但是,该模型系统明显有许多可以改进的地方. 比如,当文本很长时,pi的值可能很大,我们可以用一个三元组:f字符,所在分旬,分旬内位置)来代替原来的二元组.在算法i的第2涉中,还可以加进"两个标点符号之间,若其字符串的长度为小于或等于2 个汉字的长度,则可以基本断定它是一个词"的规则. 从理论上来说,当文本信息太少时.系统所用的分词时间较短,但会由于"共现词太少而使残田字串"较多,误分结果增加当文本信息太多时,建立索引的空问需求太大,分词所需时间太长.只有当文本信息长度适中时,系统的性能,代价比会较高. 由于使用了"找最长字共现"的原则,对于像中华人民共和国"这样的字符串,在本模型中将被分为一个词,而不是像传统的分词方法将它分为中华" 人民"共和…国"四个诃,因此,我们认为,该分词模型系统用分辞系统"来命名或许更为合适. 4小结由于时间等因素,谩模型尚在找们实验室中被不断地完善,包括对模型的进一步细化,匹配算法的改进,特殊情况的考虑以及系统性能的实验验证等,我们将继续报告最新的研究进展. 参考文献 1冯志伟自然语言的计鼽北理上海外语戢育出版社.1.9~6 o8I—96 2王成等中文信息处理技术及葬基础.上海变通太学出版被1993.p92~!IO

                    本文档为【汉语语言的无词曲分词模型系统】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

汉语语言的无词曲分词模型系统

你可能还喜欢