首页 汉语语言的无词曲分词模型系统

汉语语言的无词曲分词模型系统

举报
开通vip

汉语语言的无词曲分词模型系统汉语语言的无词曲分词模型系统 8计算机应用研究 q,.l"' 汉语语言的无词典分词模型系统 苎查扮圭查盛陈桂林fj1{ (上海交通大学图象处理与模式识别研究所20oo3o) 摘要本文主要从知识的自动获取出发,介绍了研究申的汉语语言的无词典分词模 型系统.通过算 法的自然语言描述,阐述了模型的思想 还需解决的几个问题. 关键词宅圭篮皇盐珲 分析了它与传统方法相比的优点,提出了要使系统达到实用 知识自动获取分词模型 l引言 现代计算机的发展.智能化是一个主要方向从 广义上来说,计算机的智能是使计算...

汉语语言的无词曲分词模型系统
汉语语言的无词曲分词模型系统 8计算机应用研究 q,.l"' 汉语语言的无词典分词模型系统 苎查扮圭查盛陈桂林fj1{ (上海交通大学图象处理与模式识别研究所20oo3o) 摘要本文主要从知识的自动获取出发,介绍了研究申的汉语语言的无词典分词模 型系统.通过算 法的自然语言描述,阐述了模型的思想 还需解决的几个问题. 关键词宅圭篮皇盐珲 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 了它与传统 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 相比的优点,提出了要使系统达到实用 知识自动获取分词模型 l引言 现代计算机的发展.智能化是一个主要方向从 广义上来说,计算机的智能是使计算机具有像人那样 的学习知识,存储知识,并利用知识进行逻辑推理的 功能.且具备一定的与人交互的能力.而语言则是人 机交互的未来趋势 让计算机具有智能的传统做法是将人的知识灌输 给计算机.让计算机具备人已具有的知识因而.人 们研究的重点是知识在计算机中怎样表示(知识表示) 和计算机怎样利用知识库和规则库进行问题的求解 然而.现在人们的研究重点已经转移到了教计算 机怎样自动去获取知识了 知识工程作为一个专门的学科已经吸引了众多的 学者,KDD更是自90年代初以来的研究热点,但是. 在语言文字中的知识白动获取,尤其是在汉语语言文 字方面,所受到的关注并不多.本文结合作者当前的 研究,介绍如何在没有词典的情况下实现汉语文本的 分诃这实际上是文字信息中自动获取知识的一种方 法. 2汉语语言的无词典分词模型系统研究 汉语语言文字的处理与西文相比的一个明显的不 同是汉语没有词与词之间的显式分隔标记.而实际 上,我们认为,还有一个不明显但很伤脑筋的问题是 对"什么是词7""汉语究竟有多少个词,"等这样的 许多问题,迄今还是语法学家争论不体的问题,所以. 汉语分词虽然已经有人做了二十多年的研究,现在还 是汉语语言文字处理的瓶颈_】1而如果不进行分词, 中文信息处理的其它很多研究就没办法进行 汉语分词的传统做法是将文本中的字串和词典进 行匹配根据这一指导思想.在具体的实现上,人们 提出了许多算法和思想.例如,在文本的扫描顺序上, 已有正向扫描,逆向扫描,正向和逆向扫描相结台等 方法;在匹配原则上,有最长匹配,最常匹配等多种 原则.但是,无论是哪种扫描方法,采用何种匹配原 则,它们都没能从根本上解决"错分",尤其是"歧 收稿日期:1999年3月16日 z} 义词的划分. 上述问题的根本在于没有一部完备的汉语词典, 进而也没有完美的扫描和匹配规则既然连汉语语法 专家也不能回答什么是词和有多少词的问题.那么. 何不让计算机自己去决定什么是词,决定怎样分词 呢?基于这种思想.我们提出了下面的模型.其根本 思想是组成一个词的汉字经常在文中以相同的顺序 重复出现 2.1系统模型介绍 De~1按宇索引 设一个文本D可以描迷为D】.,为字符 二元组集合{(.Pl2.p2).,称为该文本的 按宇索引,其中,二元组()中,整数n为,/E文本 中的位置 De,2宇共现 设串『+』…毋+仆.所产生的按字索引为 {.(..P,)l("+』),…,(+柙P,+),0,+州.+舯+』.} 具南s}?s计{:sl++l,p计l:p.pI++l:P+P1? 则称(或,+f+)为2字符长度的1次共现. 依次类推.可以定义:2字符长度的^次共现.进 一 步.可定义:长度的"次共现. 例如,对文本"我们爱我们的祖国一中国.因为 我们是中国人"按上述De,l和DeE2.有按宇索引 {(我,1)|(们,2)1(爱,3),(我.4),(们,5).(的, 6),(祖,7),(国,8),C一,9)I(中.10)I(国,11), (..12),(困.13),(为,l4).(我,15)I(们,16),(是, 17),(中,18),(国,19),(人,20),(.,21)),而且, 很容易看出字串我们"为2字符的3次共现,中国" 是2字符的2次共现. 计算机如何确定字共现"呢?我们仿照图灵机 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 了一个处理过程,在该过程中,扫描头每次读入 一 个字符.而输入带则是特处理的文本字符流 算法1: 1)将文本读^到一个字符串数组中. 2)将数组中所有为标点符号以及结构性标记字 "的",是的位置填为空格,将它们的信息 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 在 如下结构中: ,./ ,j午 第1O期韩客松等:汉语语言的无词典分词模型系统.9 宇车l车庄l车?斑D卜-十—位iI 图I词存储结栲 3)对数组中所有非空格字符寻找数组中与相 同的字符 Iff找到) a.记珈.的额欢及各个也置 b然后查找与.+』相同的出现{ c.如果直到并且频扶和肭颇横幅同,则一直进行到 ?Si+k.它无相同宇串或额敬不同于l钓额敢; d将i十1..i+k-I宇串,它的长度和频礁记录到圈1的词 结构中,井将所有的i+1..坼J出现位置置为空格: e将扫描}到+啦置 } EL$E { 扫描头指到+位置r处理J+J为开头的宇串 4)将数组中非空格的"残田字串"作为"词"也 记录到词结构中去. 5)结束. 对于上述例子,其处理过程如图2 舳 1匡圈{}螫 词结构就记录了文本分词后的所有信息. 2.2横型性能分析 该系统的一个明显好处是它能分出"新词.也 就是那些一般汉语词表中投有的怪词".只要它在 文本中出现两次,就可以把它正确地分出来.即使它 在文献中出现一次,它还仍有可能在算法的第4)步中 被正确地分割出来所,该分诃方法对象档案之类 的文献具有较好的处理能力,因为在档案文献中经常 丈量的出现各种人名,地名等专有名诃,而传统的匹 配方法一般对词典中没有的专有名词处理能力是较弱 的 从算法可以很容易地看出,该算法在计算机实现 时可以做到"一次扫描",因为填空符"和"找宇 共现"可以在一次串行处理中完成. 显然这是一个很粗糙的模型,它的分词速度还 是一个值得探讨的问题.质量也没有完全可靠的验 证但是,该模型系统明显有许多可以改进的地方. 比如,当文本很长时,pi的值可能很大,我们可以用 一 个三元组:f字符,所在分旬,分旬内位置)来代替 原来的二元组.在算法i的第2涉中,还可以加进"两 个标点符号之间,若其字符串的长度为小于或等于2 个汉字的长度,则可以基本断定它是一个词"的规则. 从理论上来说,当文本信息太少时.系统所用的 分词时间较短,但会由于"共现词太少而使残田 字串"较多,误分结果增加当文本信息太多时,建 立索引的空问需求太大,分词所需时间太长.只有当 文本信息长度适中时,系统的性能,代价比会较高. 由于使用了"找最长字共现"的原则,对于像中 华人民共和国"这样的字符串,在本模型中将被分为 一 个词,而不是像传统的分词方法将它分为中华" 人民"共和…国"四个诃,因此,我们认为,该 分词模型系统用分辞系统"来命名或许更为合适. 4小结 由于时间等因素,谩模型尚在找们实验室中被不 断地完善,包括对模型的进一步细化,匹配算法的改 进,特殊情况的考虑以及系统性能的实验验证等,我 们将继续 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 最新的研究进展. 参考文献 1冯志伟自然语言的计鼽北理上海外语戢育出版社.1.9~6 o8I—96 2王成等中文信息处理技术及葬基础.上海变通太学出版 被1993.p92~!IO
本文档为【汉语语言的无词曲分词模型系统】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_686908
暂无简介~
格式:doc
大小:17KB
软件:Word
页数:0
分类:生活休闲
上传时间:2018-02-10
浏览量:18