首页 中文网络聊天语言的奇异性与动态性研究

中文网络聊天语言的奇异性与动态性研究

举报
开通vip

中文网络聊天语言的奇异性与动态性研究 第 21 卷 � 第 3 期 2007 年 5 月 中文信息学报 JOU RNAL OF CHINESE INFORMAT ION PROCESSIN G Vol. 21, No . 3 May, 2007 文章编号: 1003�0077( 2007) 03�0083�09 中文网络聊天语言的奇异性与动态性研究 夏云庆1 ,黄锦辉2 ,张 普3 ( 1. 清华大学 信息技术研究院, 北京 100084; 2. 香港中文大学 系统工程系, 香港; 3. 北京语言大学 网络教育学院,北京 100083) ...

中文网络聊天语言的奇异性与动态性研究
第 21 卷 � 第 3 期 2007 年 5 月 中文信息学报 JOU RNAL OF CHINESE INFORMAT ION PROCESSIN G Vol. 21, No . 3 May, 2007 文章编号: 1003�0077( 2007) 03�0083�09 中文网络聊天语言的奇异性与动态性研究 夏云庆1 ,黄锦辉2 ,张 普3 ( 1. 清华大学 信息技术研究院, 北京 100084; 2. 香港中文大学 系统工程系, 香港; 3. 北京语言大学 网络教育学院,北京 100083) 摘 � 要: 随着互联网走入社会生活, 网络聊天逐渐成为一种新的沟通渠道,网络聊天语言便应运而生。这类语言的 日益丰富,给语言信息处理带来了新的挑战。研究发现, 困难主要来自网络聊天语言的奇异性和动态性。本文借 助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳, 并 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 了面向解决奇异性和 动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型 和语言转换模型,通过信源–信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语 料库,虽然能较好解决奇异性问题, 但不能处理动态性问题。因此, 我们进而以标准汉语语料库为基础建立文字语 音映射模型,对信源–信道模型进行改进, 最终有效解决了网络聊天语言的动态性问题。 关键词: 计算机应用; 中文信息处理;网络聊天语言; 奇异性;动态性 ;语言信息处理 中图分类号: T P391� � � � � 文献标识码 : A Toward Anomalous and Dynamic Nature of the Chinese Network Chat Language XIA Yun�qing1 , K am�Fai Wong2 , ZHANG Pu3 ( 1. Resear ch Institute of Information T echnolog y, T singhua U niversit y, Beijing 100084, China; 2. Dept . of SEEM , The Chinese U niversit y of H ong Kong , H ong Kong , China; 3. Netw ork Education Co lleg e, Beijing Language and Culture Univ ersity , Beijing 100083, China) Abstract: Net wo rk chat language becomes ubiquitous due lar gely to the rapid pr oliferat ion o f Internet applications. Online chat now acts as am impor tant r ole in human communicat ion, which in turn makes Netw ork chat language popular . Netw ork chat language processing is im po rtant but difficult. T he challenges mainly come from the anoma� lous and dynamic nature o f the new text g enr e. T he tw o distinct features of Chinese Netw ork chat language are in� vestigated and analy zed in this paper. Methods seeking to address the tw o featur es in Netwo rk chat language pro� cessing are also propo sed. We first develop a source channel model to conver t chat language to standard language. Unfo rtunately this method r elies t oo heav ily on chat language co rpus r endering the method poor in addressing the dynamic nature. We propose to intr oduce phonetic mapping model constructed w ith standard language corpus to the sour ce channel model. The extended met hod is proved effect ive in addressing the dynamic issue by our exper iments. Key words: computer applicat ion; Chinese information pro cessing; Netw ork chat language; anomalous natur e; dy� namic nature; language and info rmation processing 收稿日期: 2006�05�16 � 定稿日期: 2007�03�21 项目基金: 香港中文大学 Dir ect G rant ( 2050330) ; St rateg ic Grant ( 4410001) 作者简介: 夏云庆( 1972- ) , 男, 博士, 助理研究员, 主要研究方向为自然语言处理。 1 � 网络聊天语言的现状和挑战 根据中国互联网络信息中心( CNNIC)的统计, 到 2005年 4 月底, 我国上网用户已达到 1. 002 亿 人,网民数仅次于美国居世界第二位。今天, 每 13 个中国人就有一个与它� 亲密接触 , 互联网正在成 为各界人士获取信息的主要通道。社会科学院 2005年互联网报告[ 1] 指出,我国网民平均每天上网 的时间是 2. 73小时,单纯浏览网络论坛而不发言的 中 文 信 息 学 报 2007 年 网民只占 38. 6%。这个比例说明,网民的上网行为 不仅仅是寻找信息, 还包含了人际交流的活动。报 告指出, 通常用来双向交流的交流工具有博客 ( Blog)、论坛( BBS)、微软 MSN、聊天室、ICQ 和电 子邮件,有68. 7%的网民使用聊天室, 66. 6%的网民 使用 ICQ/ OICQ/ QQ, 44. 8% 的网民使用 BBS, 43. 9%的网民使用微软 MSN。这些数据 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 明: 随 着互联网进入社会生活, 网络聊天逐渐成为一种重 要的沟通渠道。 网络聊天渠道的发展进一步方便了交流, 也给 信息技术领域带来机遇。在商业应用中, 越来越多 的客户服务/呼叫中心/网上教学[ 18, 19] 日渐被互联 网聊天解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 取代, 聊天室, BBS 张贴, 电子邮件 和手机短信等方案逐渐被商家采用,甚至在某些应 用中取代了电话这个传统交流工具。网络聊天语言 应运而生, 并已发展成为一种重要的群体语言。这 类语言的出现带来了诸多挑战。例如, 由于网络聊 天渠道大多可以免费使用,信息杂乱无章,因此被色 情信息、犯罪信息和恐怖主义传播者所利用, 成为他 们扰乱社会安定、制造反社会活动的策划与讨论场 所[ 20, 21]。他们大量采用奇异的网络聊天语言 (黑 话) , 混淆安全监控人员的眼睛, 这就造成了安全监 控任务的难题。再如, 商业上提供基于聊天的客户 服务已经屡见不鲜,这些聊天记录同传统的电话记 录具有同样的价值, 网络聊天语言的使用,阻碍了分 析研究人员获取重要信息。于是他们带着这些问题 求助于自然语言处理工具, 希望通过语言分析处理 以�解码 这些奇异词汇[ 22~ 25] 。 中文方面, 语言学家在中文网络聊天语言研究 方面取得了重要进展。文献[ 2~ 5]介绍了中文网络 语言的基本特征,文献[ 6~ 11]对其造词法、语词类 型、语用特点及规范进行了探索,文献[ 12]指出了其 谐音现象,文献[ 13~ 15]指出了其语言变异现象。 文献[ 16, 17]则从交际和哲学高度对中文网络语言 进行了深入分析。本文从自然语言处理的角度对中 文网络语言进行研究,指出处理难点所在,并提出适 当的处理方法。 我们先看下面三个网络聊天语言的例子: ( 1) 有木有[ c1] 银[ c2]请我 7饭[ c3] (有没有 [ n1]人[ n2]请我 吃饭[ n3] ) ( 2) 偶[ c1]稀饭 [ c2]这样的 GG[ c3] (我[ n1] 喜欢[ n2]这样的哥哥[ n3] ) ( 3) 隔3差5[ c1]来看你 (隔三差五[ n1]来看你) ( 4) 细八细[ c1]又要 FB[ c2]去 (是不是[ n1]又 要腐败[ n2]去啊) 这些例子中,括号里面给出的是每个网络聊天语 言例子对应的标准语言。我们用[ ci]代表网络聊天语 言词汇, [ ni]代表对应的标准语言词汇。例如, �有木 有 对应着标准语言的�有没有 , �银 对应着标准语 言的�人 。类似的网络聊天语言词汇很多,在网络聊 天室、聊天记录和论坛( BBS)上随处可见。我们知 道,传统语言处理工具的对象是标准语言,假定分析 对象(文本)符合常规语法。这样, 面对网络聊天语 言,它们就显得无能为力了。我们用 ICTCLAS[ 26]处 理例( 1)的网络聊天文本,分词结果如下: 有/ v 木/ n 有/ v 银/ n 请/ v 我/ r 7/ m 饭/ n ICTCLAS处理不了�有木有 这个网络聊天词 汇。当然这并不说明 ICT CLAS 的性能不强, 而是 因为 ICT CLA S 不包含网络聊天语言的任何信息 (词条、规则和统计数据)。我们再看 ICT CLAS 对 例( 2)进行词性标注的结果: 偶/ b 稀饭/ n 这样/ r 的/ u GG / n ICTCLAS将�偶 分析为 b(区别词) ,将�稀饭 分析为 n (名词)。但是实际上, �偶 在这里用作 �我 ,应该为 r (代词) , �稀饭 代表�喜欢 , 应为 v (动词)。因之相对于标准词汇的�奇异 效果,我们 定义网络聊天语言的该特性为�奇异性 。网络聊天 语言的�奇异性 给文本分析和处理带来了困难。对 于处理�有木有 这样的奇异词汇, 有人建议将它添 加到词典里就可以了, 在处理�银 时,再将�人 这个 义项添加到标准词典里去。我们反对这样做,因为 标准汉语基本不会使用�有木有 这个词汇,也不会 用到�银 的�人 这个义项,只有在网络聊天环境中 才会这样用到。 有人建议将这些奇异的词汇用一个� 网络聊天 语言词典 收集,通过查询就能够找出对应的标准词 汇。这个建议并不能奏效,原因有二: 一,网络聊天 语言在用作标准词汇时导致歧义。例如�银 可以用 作网络聊天语言, 代表�人 , 也可以用作标准词汇, 表示�银 这种金属物质。这时, 仅仅通过词典, 很难 区别网络聊天语言和标准词汇, 更不用说去区分网 络聊天语言的多种不同用法。二, 通过仔细观察研 究,我们发现网络聊天语言变化很快,无法用静态的 词典去覆盖。典型地, 去年使用的一些网络聊天语 言,今年就被淘汰了,同时被更多新的网络聊天语言 取代。这就是我们所提出的网络聊天语言的�动态 性 。虽然不断更新�网络聊天语言词典 是一个解 决方法,但网络聊天语言变化快,要做到及时更新非 84 3 期 夏云庆等: 中文网络聊天语言的奇异性与动态性研究 常费时费力,而且这些花费永无止境。要解决�奇异 性 和�动态性 问题, 只依赖一个聊天语料库, 似乎 走进了死胡同。 中国有句俗语: 万变不离其宗。我们认为再动 态的网络聊天语言也包含着相对静态的因素。我们 的细致观察最终证实了这一想法。我们发现, 尽管 网络聊天语言文本千差万别, 但绝大多数( 99% 以 上)中文网络聊天语言的产生都遵循着一个不变的 基本原则, 即语音映射。网络聊天语言除了表情图 标外,极少是从无到有的创造,绝大多数都对应着原 始文字模板。例如�偶 对应着�我 , � 稀饭 对应着 �喜欢 ,都是通过方言语音映射得到的,而�隔 3 差 5 则直接对应了同音词�隔三差五 。可见, 网络聊 天语言的产生具有明显的语音映射基础。 有了这把网络聊天语言处理的钥匙,奇异性和 动态性问题便迎刃而解。本文借助真实网络聊天语 言文本,对网络聊天语言的奇异性和动态性进行详 细分析和归纳, 并初步设计了面向处理奇异性和动 态性问题的网络聊天语言文本识别与转换方法。我 们先以网络聊天语言语料库为基础建立网络聊天语 言模型和语言转换模型, 通过信源 ! 信道模型 ( Source Channel M odel)实现网络聊天语言向标准 语言的转换。但该方法过于依赖网络聊天语言语料 库,虽然能较好解决奇异性问题,但不能处理动态性 问题。因此,我们进而以标准汉语语料库为基础建 立文字语音映射模型, 对信源–信道模型进行改进, 最终有效解决了网络聊天语言的动态性问题。 2 � 网络聊天语言的奇异性与动态性 我们认为,网络聊天语言具有两个显著特性,即 奇异性与动态性。前者从网络聊天语言的表面就能 观察得到,是显性的,因而比较容易把握; 后者需要 经过对不同时间段的网络聊天语言文本进行对比分 析才能得知,是隐性的,因而难于驾驭。我们首先通 过丰富的实例对网络聊天语言的奇异性进行分析。 这些实例均来自 NIL 语料库 [ 24]。 2. 1 � 奇异性 网络聊天语言最引人注目的是其奇异性,它看 起来奇特怪异,似乎是错别字却被重复使用,似乎是 语法错误却频繁出现。奇异性表现在词汇的使用和 表达方法两个方面。但篇幅所限, 本文重点讨论网 络聊天语言在词汇使用上的奇异性。 在词汇使用上, 网络聊天语言或者使用奇异词 汇,或者使用标准词汇的奇异意义。奇异词汇的使 用是网络聊天语言最初的表现形式。通过对网络聊 天语言文本语料库的 9 524 个�奇异 网络聊天语言 的形态进行观察分析, 我们将网络聊天语言划分为 六类,如表 1所示。 表 1� 网络聊天语言的六类形态 网络聊天语言形态 出现次数 比例 例 � � 子 注 � � 释 中文词汇 8 030 61. 8% 稀饭直来直去。 � 稀饭 = � 喜欢 中文短语 670 5. 2% 细八细要开个会议? � 细八细 = � 是不是 英文大写字母 2 119 16. 3% PF 他们的做事态度。 � PF = � 佩服 阿拉伯数字 1 021 7. 9% 9494,该打。 � 94 = � 就是 上述形态的混合形态 1 034 8. 0% 8错, 怎么弄得? � 8 错 = � 不错 表情图标 110 0. 8% 天气真好, ∀- ) � ∀- ) = � 愉快 � � 表 1显示,在中文网络聊天语言中, 使用频率 最高的还是词汇和短语。但是从统计数字来看, 英文大写字母也占据了很大比例。这并不是由于 中文网络聊天语言使用了英语, 这些英文大写字 母大都是汉语拼音的声母缩写。例如, � PF 是�佩 服 的汉语拼音� pei4 fu2 的声母缩写。少数英文 大写字母是来自英语,例如� ING 反映的是英文现 在进行时态在动词后面后缀� ing , 表示� 正在 。 恰恰相反, 许多中文网络聊天语言词汇却借用了 英文单词的发音, 例如, � 粉丝 是借用英文单词 � fans 的发音然后通过汉语拼音映射过来的, 这种 现象被称为�音译 。音译词在中文网络聊天语言 中出现频率不高。 我们再对 12 983个中文网络聊天语言词汇/短 85 中 文 信 息 学 报 2007 年 语进一步分析, 我们发现奇异词汇的使用与标准词 汇奇异意义的使用具有表 2所示的分布。 表 2 � 奇异词汇和标准词汇奇异意义的分布 中文网络 聊天语言 词汇个数 比 � 例 出现次数 比 � 例 奇异词汇 224 64. 4% 4 519 34. 8% 标准词汇 奇异意义 56 16. 1% 7 839 60. 4% 其他 68 19. 5% 625 4. 8% 总计 348 100% 12 983 100% � � 表 2 显示, 使用标准词汇奇异意义的个数占 16. 1% 的网络聊天语言在聊天语料库中出现了 7 839次, 占所有中文奇异网络聊天语言总数的 60. 4%。这一现象表明,使用标准词汇奇异意义的网 络聊天语言占绝大多数。 我们认为, 网络聊天语言的奇异性给网络聊天 语言处理带了如下挑战: 1) 网络聊天语言的使用 群体很大,覆盖面很广,想要穷举所有奇异网络聊天 语言并非易事。2) 网络聊天语言造成了歧义, 尤其 是同时使用标准词汇奇异意义的网络聊天语言, 这 给网络聊天语言处理带来巨大困难。 2. 2 � 动态性 动态性反映网络聊天语言的变化。例如,去年使 用的一些网络聊天语言,今年就被淘汰了,同时又出 现了更多新的网络聊天语言。正如张普教授所说, �流行语都有流行周期, 流行一过有可能就不使用 了。 流行性和动态性实际上反映的是同一个问题。 为了分析网络聊天语言的动态性, 我们将两年 内的聊天文本语料根据时间划分为 4 个相等的子 集,每半年的聊天文本为一组,然后统计其中网络聊 天语言的重复使用状况。统计结果如表 3所示。 表 3 � 网络聊天语言的使用重复率 语料组 2004�7 2005�1 2005�7 2006�1 平均 2004�1 0. 882 0. 823 0. 769 0. 706 0. 795 2004�7 ! 0. 885 0. 805 0. 749 0. 813 2005�1 ! 0. 891 0. 816 0. 854 2005�7 ! 0. 875 0. 875 � � 排除个别例外情况, 总的趋势是: 越早的子集 同越晚的子集重复使用的网络聊天语言越少。从 2004年 1月到 2006年 1月间,网络聊天语言改变 了将近 30%。从平均使用重复率来看, 这个趋势 也是明显的。我们完全可以假设, 如果语料库能 够覆盖五年的网络聊天语言, 我们以每半年的网 络聊天语言作为语料子集, 这种趋势将会更加 明显。 我们认为,网络聊天语言的动态性带来如下挑 战: 1) 新的网络聊天语言不断出现,建立在一个静 态字典或者一个静态语料库基础上的方法很难识别 新出现的网络聊天语言。2) 为了能及时捕获新出 现的网络聊天语言,需要创建越来越多的语料库,这 需要消耗很大的人力物力。这必然给基于语料库的 处理技术提出一个难题, 即在时间滞后的语料基础 上学习,亦要取得一致的处理效果, 其中技术难度 很大。 3 � 网络聊天语言与语音映射 3. 1 � 网络聊天语言的语音映射特点 � � 我们认为动态的网络聊天语言包含着相对静态 的基本元素,我们的细致观察最终证实了这一猜想。 我们发现,尽管网络聊天语言文本千差万别,但绝大 多数( 99%以上)中文网络聊天语言的产生都遵循着 一个不变的基本原则, 即语音映射。网络聊天语言 极少是从无到有的创造, 绝大多数都对应着原始文 字模板。例如� 偶 对应着� 我 , � 稀饭 对应着�喜 欢 ,都是通过方言语音映射得到的, 而�隔 3差 5 则直接对应了同音词�隔三差五 。可见, 网络聊天 语言的产生遵循明显的语音映射原则。有了这个语 音映射原则,无论网络聊天语言如何千变万化, 本质 上的语音映射是稳定的、静态的。我们以语音映射 方法为尺度,对 2. 2 节所用的观察样本对网络聊天 语言的重复使用状况进行再次分析, 统计结果(表 4)表明,语音映射是动态网络聊天语言处理的钥匙。 表 4� 网络聊天语言语音映射方法的使用重复率 语料组 2004�7 2005�1 2005�7 2006�1 平均 2004�1 0. 987 0. 993 0. 989 0. 993 0. 991 2004�7 ! 0. 993 0. 991 0. 986 0. 990 2005�1 ! 0. 997 0. 992 0. 995 2005�7 ! 0. 995 0. 995 3. 2 � 语音映射模型形式化 为了便于语音映射模型的形式化描述, 我们先 86 3 期 夏云庆等: 中文网络聊天语言的奇异性与动态性研究 给出字�字映射模型。即三元组: CM ∀= < T , C, Prcm ( T / C) > � � 其中, CM 代表字�字映射模型, T 代表网络聊 天语言字符, C 代表标准语言字符, Prcm ( T | C)代表 字�字映射的概率。例如网络聊天语言� 7 和标准 语言�吃 的字�字映射模型为< 7, 吃, 0. 127> 。显 然,由于字�字映射模型只能通过对网络聊天语言 语料库的统计获得,概率参数严重依赖于网络聊天 语言语料库。 语音映射模型具有更强更广泛的映射表达能 力,它将语音映射引入字�字映射模型, 即五元组: PM ∀= < T, C, pt ( T) , pt ( C) , Prpm ( T | C) > � � 其中, PM 代表字�字映射模型, p t( T )代表网 络聊天语言字符对应的语音标记, p t( C)代表标准 语言字符的语音标记, Prpm ( T | C)代表语音映射模 型的概率。我们用汉语拼音表示中文语音标记。 例如网络聊天语言� 7 和标准语言�吃 的语音映 射模型为< 7, 吃, qi, chi, 0. 357> 。语音映射模型 不再依赖网络聊天语言语料库, 它可以从标准语 言语料库抽取。网络聊天语言语料库的作用只是 加强该模型对网络聊天语言的适应性。 3. 3 � 语音映射模型参数估计 语音映射模型的参数估计主要回答两个问题: 一,字符映射空间从何而来? 二,语音映射概率如何 估计? 我们从标准汉语语料库抽取所有汉语字符, 同时将这些字符看作网络聊天语言字符的候选对 象,这样我们就获得了两种语言的字符映射空间。 由于字符空间的完整性依赖于标准语言语料库的覆 盖面,因此在实验中我们选择了当前覆盖面最大的 中文 GIGAWORD( CNGIGA)语料库。 既然我们认为是语音映射将标准语言字符和网 络聊天语言字符关联起来的,那么语音相似度自然 是语音映射模型的基本元素。我们开发了汉语拼音 相似度计算工具获得此相似度 [ 25]。为保证语音映 射模型能代表广泛的标准语言统计规律, 我们在语 音映射模型的概率估计中考虑字符在语料库里的出 现次数。这样我们得到如下语音映射概率计算 公式: P naive ( A , A - ) = ( f r slc( A - ) # py s ( A , A - ) )∃ i ( f r slc ( A i ) # py s( A , A i ) ) (1) 其中, { A i } 是与字符 A 在语音上相似的字符集合, A - 来自这一集合, f r slc ( A i )表示字符 A i 在标准语 言语料库中的出现次数, p y s( A , A i )表示字符 A 与 A i 的语音相似度。 为了加强对网络聊天语言的适应性, 我们使用 网络聊天语言语料库来调整语音映射模型。于是, 概率计算公式(1)改写为: P ex tended ( A , A - ) = f r N IL ( A - ) # Pnaive ( A , A - )∃ i f r NI L ( A i ) # Pnaive ( A , A i ) (2) � � 这里, f rNI L ( A i )代表字符 A i 在网络聊天语言 语料库的标记文本中的出现次数。这样一来,如果 某些字符在网络聊天语言语料库的标记文本中出 现,相应的语音映射模型概率将会得到提高。 由于使用了网络聊天语言语料库, 必然出现数 据稀疏问题,也就是说,某些字符可能不出现在网络 聊天语言语料库的标记文本中。为此我们引入平滑 算子处理数据稀疏问题, 对所有在网络聊天语言语 料库标记文本中出现次数为 0 的字符, 用该平滑算 子取代其出现次数。这样公式( 2)改写为: P ex tended ( A , A - ) = sf # Pnav ie ( A , A - )∃ i f r NI L ( A i ) # Pnaive ( A , A i ) + ∃ j sf # Pnaive ( A , A j ) � � if f r eNI L ( A - ) = 0; f r NI L ( A - ) # P nav ie( A , A - )∃ i f r NI L ( A i ) # Panive ( A , A i ) + ∃ j sf # Pnaive ( A , A j ) � � otherw ise. (3) � � 这里, 所有字符 A j 在网络聊天语言语料库的 标记文本中出现次数为 0。显然,概率计算的准确 度依赖于这个平滑算子。如果平滑算子太大(超过 1) ,就会忽略网络聊天语言语料库对该计算的影响; 如果太小(等于 0) , 语音映射模型就容易过度适应 网络聊天语言语料库。我们采用 0. 2、0. 4、0. 6 和 0. 8 分别考察它们对实验结果的影响; 同时利用标 准语言语料库对平滑算子进行评估。计算公式 如下: sf ( k) = f r slc ( A k )∃ j f r slc ( A j ) (4) � � 这里, f rN IL ( A j ) = 0 而且 A k % { A j }。可以看 出,在标准语言语料库出现次数越多,平滑算子值就 越大,反映了广泛的标准语言统计规律。 87 中 文 信 息 学 报 2007 年 4 � 网络聊天语言到标准语言的自动转换 网络聊天语言处理的根本目的是实现从网络聊 天语言到标准语言的转换。本文描述两个方法: 第 一个方法只利用网络聊天语言与语料库, 通过原始 信源�信道模型,实现网络聊天语言的转换; 第二个 方法引入语音映射模型以扩展原始信源�信道模 型,以解决动态性问题。 4. 1 � 基于字�字映射的原始信源�信道模型 信源�信道模型是语音识别和机器翻译技术中 的常用方法[ 27] , 我们采用该方法在字�字映射模型 的基础上实现对网络聊天语言的转换。该方法的基 本思想是搜索字符映射空间以得到最可能的字符转 换结果。根据 Bayes法则, 该条件概率被分解为字 符映射模型和语言模型, 如公式(5)所示。 C^ - argmax C p ( T | C) = argmax p ( C | T) p ( T ) p (C) ) ( 5) � � 其中 T = { ti } i= 1, 2, &, m代表输入网络聊天语言文 本, C= { ci } i= 1, 2, &, n代表所有可能的标准语言文本映 射, C^ 是最优映射转换结果。p (C| T )代表字符映射 模型, p ( T )代表网络聊天语言模型, 二者均可从网 络聊天语言语料库中训练获得。 该方法采用字�字映射模型的典型方法, 其局 限性是对网络聊天语言语料库的过度依赖, 数据稀 疏问题很严重。如果某网络聊天语言不在网络聊天 语言语料库中出现, 就很难得到正确的转换结果。 这导致该方法无法应付网络聊天语言的动态性。 4. 2 � 基于语音映射的扩展信源�信道模型 基于语音映射模型的扩展信源�信道模型能够 很好解决动态性问题, 这得益于语音映射模型的普 遍性。我们在公式( 4)中插入语音映射模型, 得到一 扩展的信源�信道模型,如公式(6)所示。 C^ = argmax C p ( T | M , C) = argmax p ( C | M, T) p (M | T ) p ( T ) p (C) ( 6) � � 这里, M = {mi } i= 1, 2, &, n代表 T = { ti } i= 1, 2, &, m到 C= { C i } i= 1, 2, &, n语音映射集合。p (C| M , T )即所谓 网络聊天语言转换观察模型, p ( M | T )即语音映射 模型, p ( T )即网络聊天语言模型。 同基于字�字映射的原始信源�信道模型相比, 基于语音映射的扩展信源�信道模型的搜索空间得 到充分扩大。例如, �银 在聊天语料库中仅被标记 用作�人 , 因此用基于字�字映射的原始信源�信道 模型处理�银们散了 , 搜索空间是 {� 人们散了 , �银们散了 } ;而在基于语音映射的扩展信源�信道 模型中, 搜索空间扩大为 {� 因们散了 , �印们散 了 , �吟们散了 , � 阴们散了 , �人们散了 , �银 们散了 }。这显然提高了对网络聊天语言的动态性 的处理能力。 5 � 实验与评测 5. 1 � 实验数据 � � 实验中我们用到两类训练语料库, 即标准语言 语料库和网络聊天语言语料库。我们采用中文 GIGAWORD( CNGIGA) [ 28] 作为标准汉语语料库, 采用 NIL 语料库[ 24] 作为网络聊天语言语料库。 我们使用了四个测试集 T# 1~ T# 4, 均来自天 极论坛( bbs. yesky. com) �大嘴区 。每个测试集包含 的聊天语句 500句,时间戳在网络聊天语言语料库中 的聊天语句之后,即 2005年 8月到 11月。这样安排 测试集,目的是要比较网络聊天语言转换方法在不同 时间段测试语料上的性能,从而观察不同方法在处理 网络聊天语言的奇异性和动态性上的效果。 5. 2 � 评测指标 在网络聊天语言识别上, 我们采用同未登录词 识别类似的评测指标, 即准确率 ( p )、召回率 ( r )和 F�1指标( f )。这些指标的定义如下: p = a a + b � r = a a + c � f = 2 # p # r p + r ( 7) � � 其中, a代表正确判断为网络聊天语言的次数, b代表错误判断为网络聊天语言的次数, c代表错误 判断为非网络聊天语言的次数。 在网络聊天语言的转换上, 我们采用类似机器 翻译评测的指标, 即精确度( ac) ,它的定义如下: ac = 正确翻译的句子个数 所有测试句子个数 (8) 5. 3 � 实验 1: 原始信源�信道模型( SCM) 训练过程是利用 NIL 语料库进行字�字映射模 型的参数估计。训练完成后, 我们运行原始信源� 信道模型方法, 分别处理四个测试集。实验结果如 表 5所示。 88 3 期 夏云庆等: 中文网络聊天语言的奇异性与动态性研究 表 5 � 原始信源�信道模型的实验结果 测试集 p r f ac T# 1 0. 834 0. 853 0. 843 0. 835 T# 2 0. 801 0. 816 0. 808 0. 802 T# 3 0. 772 0. 782 0. 777 0. 773 T# 4 0. 737 0. 765 0. 751 0. 736 5. 4 � 实验 2: 扩展信源�信道模型(XSCM) 我们利用 CNGIGA 语料库和 NIL 语料库进 行扩展信源�信道模型的参数估计, 分别采用 0. 2、0. 4、0. 6、0. 8和语料库评估值作为平滑算子, 并分别处理四个测试集。实验结果如表 6、表 7 所示。 表 6 � 扩展信源�信道模型的实验结果 (固定平滑算子) 测试集 sf = 0. 2 sf = 0. 4 sf = 0. 6 sf = 0. 8 p r f ac p r f ac p r f ac p r f ac T # 1 0. 865 0. 874 0. 869 0. 864 0. 877 0. 891 0. 884 0. 876 0. 875 0. 890 0. 882 0. 874 0. 858 0. 871 0. 864 0. 857 T # 2 0. 865 0. 872 0. 869 0. 866 0. 882 0. 892 0. 887 0. 885 0. 881 0. 890 0. 886 0. 883 0. 862 0. 872 0. 867 0. 864 T # 3 0. 876 0. 869 0. 872 0. 877 0. 892 0. 884 0. 888 0. 894 0. 891 0. 883 0. 887 0. 892 0. 871 0. 866 0. 868 0. 872 T # 4 0. 868 0. 875 0. 872 0. 868 0. 884 0. 891 0. 887 0. 883 0. 881 0. 888 0. 885 0. 881 0. 866 0. 871 0. 868 0. 865 表 7 � 扩展信源�信道模型的实验结果 (以语料库评估值为平滑算子) 测试集 p r f ac T# 1 0. 891 0. 918 0. 904 0. 890 T# 2 0. 900 0. 911 0. 905 0. 900 T# 3 0. 904 0. 898 0. 901 0. 903 T# 4 0. 898 0. 911 0. 904 0. 895 5. 5 � 讨论 1: 方法性能对比 图 1给出了不同方法在四个测试集上的 F�1指 数对比曲线。总体上看, 在四个测试集上, XSCM 方法在使用语料库评估值( XSCM�v)作为平滑算子 时,都取得了最好的效果, F�1指数达到 90%以上, 网络聊天语言转化精确度也超过了 89%。SCM 方 的 F�1指数在测试集 T # 1 上取得最好效果, 即 84. 3%,比 XSCM 在测试集 T # 3上取得的最差效 果 90. 1% 低 5. 8%。从性能上看, XSCM 方法比 SCM 方法更能准确处理奇异网络聊天语言。 图 1 � 各种方法性能对比曲线。 5. 6 � 讨论 2: 平滑技术性能对比 我们接下来对几种平滑技术进行对比,图 2给 出了在四个测试集上的 F�1指数对比曲线。我们发 现以语料库评估值为平滑算子时 XSCM 取得最好 效果,即 F�1指数最高为 90. 7%。在固定平滑算子 中,当 sf = 0. 4 时, XSCM 效果略好于 sf = 0. 6, 但 超过 sf = 0. 8 约 2%。总起来看, 若采用固定平滑 算子,取值在 0. 4和 0. 6之间某值时, XSCM 性能达 到最高。 图 2� 各种平滑技术对比曲线。 5. 7 � 讨论 3: 处理动态聊天文本的健壮性 各种方法在处理动态聊天文本的健壮性可从图 1看到明显对比。我们发现, 使用各种平滑算子的 XSCM方法都取得了相对平稳的性能。这是因为 XSCM使用了语音映射模型,该模型在动态网络聊天 语言中保持了相对的稳定性。尽管四个测试集的时 间戳距离NIL 语料库的越来越远, XSCM 方法仍能利 用稳定的语音映射对动态网络聊天语言进行有效处 89 中 文 信 息 学 报 2007 年 理。而 SCM方法不能适应网络聊天语言的变化,导 致其性能急剧下降。这一实验结果有力地证实了语 音映射模型在网络聊天语言处理中的重要意义。 5. 8 � 错误分析 本部分我们给出两类典型错误, 并分析导致错 误的主要原因。 错误�1: 歧义网络聊天词汇 例 1 � 我还是 8米 例 1中, XSCM 方法没有找到网络聊天词汇, 而正确的答案是�我还是不明 。这是由于网络聊天 词汇� 8 和�米 都包含歧义,当� 8 出现在�米 前面 时, � 8 被识别成数字, 而�米 被识别成度量单位。 这时,若不通过上下文,很难发现这两个网络聊天词 汇。在我们的实验中有 93个类似错误,这样的错误 只有通过基于上下文的话语分析才能得到有 效解决。 错误�2: 非语音影射网络聊天词汇 例 2 � 忧虑 ing XSCM 方法无法识别例 2中的� ing , 而正确的 答案应该是� (正在)忧虑 。这是因为网络聊天词汇 � ing 并非产生于语音影射, 而是来自英文的现在 时态表示。统计发现, 大约有 1%的网络聊天词汇 不是通过语音影射创造的, 例如表情图标( emot i� con)就是典型的一种。幸运的是, 这些网络聊天词 汇通过基于词典的方法就可以处理。因此在实用系 统中,我们另外开发一个模块,专门用于处理非语音 影射网络聊天词汇。 6 � 相关工作 中文网络聊天语言从 2005年开始受到自然语 言处理研究人员的重视。夏云庆等 [ 23] 在 � NIL Is Not No thing 项目中对网络聊天语言的奇异性进行 了分析和归纳, 在小规模网络聊天语言语料库的基 础上,设计实现了模式匹配、最大熵和支持向量机方 法,以 2004 年 12月、2005年 1 月和 2 月的网络聊 天语言为训练文本, 在处理 2005年 3月的网络聊天 语言文本时, 取得了 87. 1%的 F�1 指数。但是, 这 些方法在处理更新的网络聊天语言文本时, 性能急 剧下降。我们认为原因有二: 一、现有网络聊天语 言语料库规模不足, 数据稀疏问题严重,这些方法过 度适应网络聊天语言语料库; 二,网络聊天语言变化 较快,即使有了大规模网络聊天语言语料库, 也不能 有效解决动态性问题。 为了建立相当规模的网络聊天语言语料库,夏 云庆等[ 24] 利用半年时间扩大了NIL 语料库的规模。 为网络聊天语言处理研究提供了更多训练语料。为 了解决网络聊天语言动态性问题,夏云庆等 [ 22]引入 标准语言语料库, 利用错误驱动方法,通过计算可信 度,来判别输入文本中的奇异网络聊天语言。实验 证明 住所证明下载场所使用证明下载诊断证明下载住所证明下载爱问住所证明下载爱问 ,这种方法对动态网络聊天语言文本具有较好 的适应性,也取得了同现有最好方法接近的网络聊 天语言识别性能。这个方法的问题在于错误驱动机 制无法实现对所识别的网络聊天语言进行转换。但 是这一实践给我们的宝贵启发是, 标准语言语料库 对网络聊天语言处理, 具有不可忽视的意义。正是 从标准语言语料库的相对稳定性, 我们发现了语音 映射模型。 7 � 结论 本文借助真实网络聊天语言文本, 对网络聊天 语言的奇异性和动态性进行详细分析和归纳,并设 计了面向解决奇异性和动态性问题的网络聊天语言 文本识别与转换方法。我们先以网络聊天语言语料 库为基础建立网络聊天语言模型和语言转换模型,通 过信源 ! 信道模型实现网络聊天语言向标准语言的 转换。但该方法过于依赖网络聊天语言语料库,虽然 能较好解决奇异性问题,但不能处理动态性问题。因 此,我们进而以标准汉语语料库为基础建立文字语音 映射模型,对信源�信道模型进行改进,最终有效解决 了网络聊天语言的动态性问题。实验证明, 扩展信 源�信道模型在引入语音映射模型以后,不但处理网 络聊天语言奇异性的能力提高了,还实现了动态网络 聊天语言的健壮处理。我们还对解决数据稀疏问题 的平滑技术进行了评测,结论是, 以语料库评估值为 平滑算子时, XSCM取得了最好效果。 限于现有的网络聊天语言料库的规模, 我们目 前还无法完成如下两个工作: 一,既然标准语言语 料库被引入网络聊天语言处理技术, 那么我们将面 对如下几个问题: 聊天语料库的最小规模多大, 才 能获得一致的满意性能? 标准语言语料库的规模是 不是越大越好? 当标准语言语料库在规模上同网络 聊天语言语料库实现多大的比率时, 能够得到最好 的训练效果? 回答这些问题需要相当规模的网络聊 天语言语料库,是我们目前所无法完成的。二, 尽管 语音映射模型引入后, 动态性问题能够得到解决,但 90 3 期 夏云庆等: 中文网络聊天语言的奇异性与动态性研究 仍然不能忽略网络聊天语言语料库规模提高对网络 聊天语言处理的意义。另外, 在语音映射模型的假 设之外还有 1%的网络聊天语言需要特殊处理, 那 么我们会问: 大致需要多久以后, XSCM 方法应该 在新的网络聊天语言语料库上重新训练一次, 才会 保持良好的处理性能? 这个工作也离不开相当规模 的网络聊天语言语料库。这两类问题将在我们未来 工作中得到阐述。 参考文献: [ 1] � 郭良. 05 年中国 5 城市互联网使用现状及影响调查报 告[ EB] . 社科院社会发展研究中心, 2005. [ 2] � 马静. 语言学视野中的网络语言[ J] . 西北工业大学学 报, 2002, 22( 3) : 52�56. [ 3] � 李雪华. 网络语言初探[ J] . 广西社会科学, 2004, ( 3) : 154�155. [ 4] � 梁书杰. 对网络语言规范的探讨[ J] . 高教论坛, 2005, ( 6) : 191�193. [ 5] � 袁星新. 试论网络语言的基本特点 [ J] . 语言研究, 2005, ( 12) : 20�23. [ 6] � 祁伟. 试论社会流行语和网络语言 [ J] . 语言与翻译, 2002, ( 3) : 18�22. [ 7] � 李润生. 网络词汇的造词法探析[ J] . 江西教育学院学 报, 2003, 24( 2) : 47�49. [ 8] � 李梅.谈网络语言的语词类型、特点及规范[ J] . 语言研 究, 2004, ( 3) : 48�50. [ 9] � 郭笃凌, 郝怀芳. 网络语言的类型、特点及其语用学意 义[ J] . 语言应用研究, 2006, ( 3) : 65�67. [ 10] � 王登文,吴晓云. 英汉网络语言语用探析 [ J] . 外语研 究, 2006, ( 9) : 177�178. [ 11] � 陈向红,黎昌抱. 网络聊天中表情达意的非规范手段 研究网络聊天中表情达意的非规范手段研究 [ J] . 广 西社会科学, 2006, ( 3) : 190�193. [ 12] � 冯念 ,冯广艺. 网络词语的谐音及规范问题[ J] . 河南 师范学院学报, 2005, ( 1) : 138�139. [ 13] � 王鸿雁.汉语网络语言变体探析 [ J ] . 社科纵横, 2005, 20 ( 2) : 156�158. [ 14] � 李少丹. 谈网络语言的变异现象[ J] . 四川理工学院院 报, 2006, 21( 4) : 102�104. [ 15] � 赵丽萍. 谈网络语言中的词汇变异现象[ J] .应用语言 研究 , 2006, ( 7) : 76. [ 16] � 李艳.韩金龙. IRC�聊天室非语言交际研究[ J] .外语 电化教学, 2003, ( 94) : 7�11. [ 17] � 周卫红.论网络语言的后现代文化内涵[ J] . 哲学研究 晋阳学刊, 2006, ( 2) : 76�79. [ 18] � Gianfo rte, G . . 2003. Fr om Call Center to Contact Center : H ow to Successfully Blend Phone, Email, Web and Chat to Deliv er G reat Ser vice and Slash Costs[ R] . R ightNow Techno lo gies. [ 19] � H eard�White, M ., Gunter Saunders and Anita Pin� cas. 2004. Repo rt into the use of CH AT in educa� tion. Final repo rt fo r pro ject of Effect ive use o f CHAT in Online Learning [ R ] . I nstit ute of Educa� tion, University of London. [ 20] � F inkelhor, D ., K . J. M itchell, and J. Wolak. Online V ictimization: A Repor t on the Nat ion∋ s Youth[ R ] . A lexandr ia, V irg inia: Nationa l Center for M issing & Exploited Children, 2000, page ix . [ 21] � McCullagh, D. . 2004. Secur ity officials to spy on chat ro oms. News prov ided by CNET Netw orks[ R] . November 24, 2004. [ 22] � Xia, Y . and K .�F. Wong . 2006a. Anomaly Detec� ting within Dynamic Chinese Chat Tex t [ A ] . I n: P roc. of EACL∋ 06 NEW T EXT w orkshop[ C] . [ 23] � Xia, Y., K .�F. Wong and W. Gao. 2005. N IL is no t Nothing : Recognition of Chinese Net wo rk Info rmal Language Expressions[ A] . 4th SIGHAN Work�shop at IJCNLP∋ 05[ C] : 95�102. [ 24] � Xia, Y ., K.�F. Wong and W . L i. 2006b. Constr uc� ting A Chinese Chat Tex t Corpus w ith A Tw o�Stage Increment al Anno tation Approach[ A ] . In: Pr oc. o f LREC 2006[ C] . [ 25] � Xia, Y ., K.�F. Wong and W . L i. 2006c. A Phonet� ic�Based Approach to Chinese Chat Tex t Normaliza� tion[ A] . In: Pr oc. of ACL∋ 06[ C] . 993�1000. [ 26] � Zhang, Z., H. Yu, D . Xiong and Q . Liu. HM M� based Chinese Lex ical Analy zer ICT CLAS [ A ] . SIGH AN∋ 03 w ithin ACL∋ 03[ C] . 2003. 184�187. [ 27] � Epstein, M . E. . 1996. St atistical Sour ce Channel Models for Natural Language Understanding [ D ] . PhD T hesis. New Yo rk Univ ersity . [ 28] � Graf, D ., Chen, K ., Kong , J., Maeda, K . : Chinese Gigaw ord Second Edit ion[ DB] . LDC Catalog Number LDC2005T 14 ( 2005) . 91
本文档为【中文网络聊天语言的奇异性与动态性研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_905401
暂无简介~
格式:pdf
大小:308KB
软件:PDF阅读器
页数:0
分类:互联网
上传时间:2013-12-05
浏览量:20