首页 词语搭配研究中的统计方法

词语搭配研究中的统计方法

举报
开通vip

词语搭配研究中的统计方法 第 2 卷  第 4 期 大连海事大学学报 (社会科学版) Vol. 2 ,No. 4 2003 年 12 月 Journal of Dalian Maritime University (Social Sciences Edition) Dec. , 2003 词语搭配研究中的统计方法 Ξ 邓耀臣 (大连海事大学 外语系 ,辽宁 大连  116026) 摘要 :重点介绍了词语搭配研究中常用的三种统计方法的理念和实现方法 ,特别是对词语搭配研究中常见 的 MI值和 T值的计算方法作了详细的介绍 ,并对每一种...

词语搭配研究中的统计方法
第 2 卷  第 4 期 大连海事大学学报 (社会科学版) Vol. 2 ,No. 4 2003 年 12 月 Journal of Dalian Maritime University (Social Sciences Edition) Dec. , 2003 词语搭配研究中的统计方法 Ξ 邓耀臣 (大连海事大学 外语系 ,辽宁 大连  116026) 摘要 :重点介绍了词语搭配研究中常用的三种统计方法的理念和实现方法 ,特别是对词语搭配研究中常见 的 MI值和 T值的计算方法作了详细的介绍 ,并对每一种方法的优、缺点加以比较。 关键词 :词语搭配 ;MI值 ;T值 ;统计方法 中图分类号 :H03    文献标识码 :A    文章编号 :167127031 (2003) 0420074204 Statistics in collocation study Deng Yaochen (Foreign Languages Department , Dalian Maritime Univ. , Dalian 116026 , China) Abstract :This paper mainly introduces the statistics commonly used for collocation study , especially , the measure2 ments of MI score and T score. The strong points and weak points of each method are also compared in the paper. Key words :collocation ; MI score ; T score ; statistics   一、引言 词语搭配指词与词的结伴使用这种语言现 象 , 是一种高度因循性的词语组合 ,是词语间的 典型共现行为[1 ] 。在外语学习中 ,掌握和使用典 型的词语搭配是学习本族语者的无标记语言的重 要内容之一。词语搭配的典型性由搭配的概率属 性决定 ,因为任何搭配都是可能的 ,只不过一些比 另一些更为恰当[2 ] 。因此 ,抽取“更为恰当”的、典 型的搭配词成为词语搭配研究的一个重要方面。 本文重点介绍了在基于语料库的词语搭配研 究中 ,运用概率信息和统计手段自动抽取典型词 语搭配的三种主要方法 :1) 统计搭配词与关键词 的共现频数 ;2) 统计测量共现词项间的 MI 值 ;3) 统计测量共现词项间的 T值。本研究采用的语料 库为上海交通大学 JDEST语料库的一个子库 ,词 容为 1 185 594 词次。语料库研究工具为 Word2 smith V3. 0 软件。   二、词语搭配研究中常用的统计 方法及其比较   1. 搭配词频数统计 要统计某一节点词 (node word) 的搭配词在语 料库中的出现频数 , 首先要对节点词进行带有语 境的检索 ( KWIC) ,然后提取节点词在一定跨距 (span)内与之共现的所有词项 ,最后统计共现词 的频数。只有在语料库中与节点词共现达到一定 次数的词项才有可能成为节点词的习惯性搭配 词。本研究以词形 power 为例说明其典型搭配词 的抽取过程。在本研究采用的 JDEST语料库中节 点词 power 的观察频数为 1 567。以下是运用 Wordsmith 软件从该库中提取的节点词 power 的检Ξ 收稿日期 :2003207204 作者简介 :邓耀臣 (1967 —) ,男 ,山东烟台人 ,讲师 , 硕士研究生。 索行片断 ,界定跨距为 - 4Π+ 4。 1. But the combination of     power , complexity , and newness seem 2. the need for computational power was evidenced in the 3. modes allows the processing power of the system to 4. users with maximum computing power at minimum cost leads 5. the least amount of power to drive the display 6. display requires little processing power itself . 7. a greater combined processing power and can handle more 8. returns in terms of power for the extra financial 9. relative decrease in equivalent power as the number of a 10. For example , the equivalent power of a 42processor system 11. processors , and the equivalent power of a 102processor system , 12. access to substantial computer power is now economically feasible 13. model has universal computing power. 14. maximum temperature. With power at 1 1Π2 D per unit , 15. actually serves as a power limiter. Since it is 16. input speed varies , however power limiting can still be   运用 Wordsmith 软件的统计搭配词功能 ,我们 提取了节点词 power 在 - 4Π+ 4 跨距内的共现词 共 2 147 个。 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 1 显示的是频数最高的 20 个共现词 : 表 1  power 频数最高的共现词 rank collocates frequency rank collocates frequency rank collocates frequency 1 The 870 8 for 184 15 are 73 2 of 486 9 nuclear 133 16 plant 73 3 and 339 10 as 97 17 or 67 4 to 271 11 be 97 18 on 65 5 A 254 12 by 89 19 system 63 6 In 243 13 at 87 20 from 61 7 Is 211 14 with 75   共现词频数表能使研究者很清楚地看出哪一 些词与节点词经常在一起使用 ,并使研究者很容 易确定一些明显的词语搭配。如从表 1 我们可看 出 ,nuclear , plant 和 system 三个词在语料库中与 power 反复共现 ,构成意义明晰的搭配 ,都表达了 科技英语中的一些重要概念。 但是 ,通过共现词的频数确定搭配词的方法 存在严重缺点。从以上检索行可看出 ,由于界定 跨距忽略句子界限 ,power 的一些共现词与节点词 没有语法限制关系 ,对节点词也没有任何预见作 用。如第 15 行中的 power. . . Since 和第 16 行中的 However ,power 等。这些共现词落入跨距内完全 是由语言使用的某种偶然因素造成的。在一般的 语料库研究活动中 ,它们被称为偶然搭配词。这 些偶然搭配词不是真正意义上的词语搭配 ,应当 排除。另外 ,仅根据共现频数的高低 ,研究者还无 法确定每一个共现词是否为显著搭配词。如表 1 中 ,the 位于频数之首 ,是因为它与 power 的相互 预见、相互吸引力最强还是因为它能与所有名词 连用而造成共现频数最高 ? 我们最关心的是 ,在 特定的语境内 ,节点词 power 对哪一些词产生了 显著影响 ,以至于吸引它们与之构成典型搭配。 如果都是显著搭配词的话 ,他们的显著性有什么 不同 ? 要回答这些问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,我们就必须运用统计测 量的方法 ,检验每一个共现词与节点词之间的相 互预见和相互吸引程度 ,判断它们的共现在多大 程度上体现了词语组合的典型性。 2. MI值的统计测量 共现词显著性的测量方法通常有两种 :MI 值 和 T值。这两种方法都是通过比较共现词的观察 频数 (observed frequency) 和期望频数 (expected fre2 quency)的差异来确定搭配序列在语料库中出现 概率的显著程度[3 ] 。 期望频数是词语搭配研究中的一个重要概 念。这一概念的提出基于这样一个假设 :如果节 点词对共现词没有吸引、预见影响的话 ,那么共现 词在节点词特定跨距内出现的概率应该和在整个 语料库中随机分布的概率一样。假设 x 和 y 分别 57第 4 期             邓耀臣 :词语搭配研究中的统计方法              为语料库中随机分布的两个词 ,语料库的总词容 为 N , 它们在语料库中出现的实际观察频数分别 为 f ( x)和 f ( y) ,出现概率为 P ( x) = f ( x)ΠN 和 P ( y) = f ( y)ΠN , 那么 ,如果搭配词 y 不受节点词 x 的吸引而与之共现 (即 :在 x 的特定跨距内出现) 的期望频数应为 : f ( o) = f ( y)ΠN 3 [ f ( x) 3 2 S ] ( S 为跨距) 。 MI值 (Mutual Information Score ,互信息值) 表 示的是互相共现的两个词中 ,一个词对另一个词 的影响程度或者说一个词在语料库中出现的频数 所能提供的关于另一个词出现的概率信息。MI 值越大 ,说明节点词对其词汇环境影响越大 ,对其 共现词吸引力越强。因此 ,MI 值表示的是词语间 的搭配强度。MI值的计算公式为 : I ( x , y) = log2 [ P ( O )ΠP ( E ) ] = log2 [ f ( x , y ) 3 N ]Π ( f ( x) f ( y) 3 2 S ) ]。如果 x 和 y 之间存在真正的连结关系 ,那么观察概率将远大于期望概率 ,结果为 I ( x , y) > 0。如果两个词相关程度不高 ,那么观察概率接近期望概率 ,结果为 I ( x , y) ≈0。如果 I ( x , y) < 0 ,说明其中一个词出现时 ,另一个词不出现 ,即二者呈互补分布[4 ] 。例如 nuclear 一词在语料库中的观察频数 f ( y) = 493 ,与 power 共现的频数 f ( x , y) = 133 ,那么其 MI 值为 : I ( x , y) =log2 [ f ( x , y) 3 N ]Π( f ( x) f ( y) 3 2 S ) ] = log2 [ (1333 1 185 594)Π1 567 3 193 3 8 ] = 10. 67。基于语料库的词语搭配研究中通常把 MI 值等于或大于 3 的词作为显著搭配词[5 ] ,所以 nuclear 和 power 能构成显著搭配。表 2 是节点词 power 在 JDEST语料库中 MI值最高的 20 个搭配词 : 表 2  power 在 JDEST语料库中 MI - 值最高的 20 个搭配词 rank collocates fy fxy Miscore rank collocates fy fxy Miscore rank collocates fy fxy Miscore 1 Horse 13 10 12. 18 8 Plants 207 55 10. 65 15 Capacitors 20 4 10. 24 2 Throttles 6 4 11. 98 9 Dissipation 27 7 10. 62 16 Tie 20 4 10. 24 3 Excursion 11 5 11. 43 10 Stations 74 19 10. 6 17 Tremendous 20 4 10. 24 4 Watts 18 6 10. 98 11 Actuated 20 5 10. 56 18 Supplies 57 11 10. 19 5 Nuclear 493 133 10. 67 12 Chassis 23 5 10. 36 19 Reactive 53 10 10. 16 6 Fueled 15 4 10. 66 13 Versions 24 5 10. 3 20 Bundle 43 8 10. 14 7 Outage 15 4 10. 66 14 Stroke 59 12 10. 27   MI 值主要是通过测量共现词的非随机性 (non2randomness)来体现词语搭配的显著性。上表 中 horse 和 power 共现的MI值是 12. 18 , 这意味着 horse 和 power 的实际共现频率比偶然概率高出 212. 18 = 4 640. 29 倍。因此 ,我们可以断定二者之 间有较强的连结关系 ,能构成典型搭配。 MI值可清楚表现共现词间的相互吸引程度 , 它可以帮助我们确定把哪些词作为节点词的可能 搭配词而重点加以研究。但是 MI 值高的搭配词 不一定和节点词共现的频数就高。以表 2 中的 throttles 一词为例。尽管 throttles 在 JDEST语料库 中频数较低 (仅出现 6 次) ,但从 MI 值 (11. 98) 来 看二者搭配显著 ,这是因为 throttles 在语料库中几 乎都是与 power 结伴共现 (4 次) 。这说明 MI 值表 示的词语连结信息并不总是可靠。如果一个词在 语料库中的出现频率较低 ,而出现时又多与节点 词共现 ,那么二者的MI值肯定很高。这也说明对 于语料库中的低频词 (频率小于 10) ,MI值信度较 低 ,因为我们不能确定这一结果是源于二者的真 正关联还是源于语料库的特殊本质。因此 ,在词 语搭配抽取的研究中 ,除了计算搭配强度外 ,还有 必要对共现词的显著性进行假设检验 ,以获得有 关典型搭配的更多证据。常用的检验方法为 t 检 验。 31T值的统计测量 T值是根据假设检验中的 t 检验计算得来 的。假设检验主要通过检验某一样本的平均数与 正态分布总体的平均数之间的差异是否显著来断 定该样本取自总体的可能性有多大 ,或者说二者 之间的差异是否由偶然性造成。在词语搭配研究 中 ,我们要检验的就是在由节点词构成的小文本 中两个词的共现频数与期望频数是否存在显著性 差异。运用 t 检验断定搭配词的显著性时 ,首先 形成零假设 :两个共现词之间没有联系 ,不能构成 搭配 ,然后以 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差来衡量观察频数和期望频数 的差异是否达到显著性水平。 计算 T值时首先要计算搭配词在小文本中分 布的标准差。计算公式如下 : 67               大连海事大学学报 (社会科学版)            第 2 卷   SD = f ( y) ΠN ×(1 - f ( y) ΠN) ×f ( x) ×2 S   T值计算公式为 t = ( f ( o) - f ( e) )ΠSD 如果 T值小于显著性水平为 0. 05 的关键值 (criti2 cal value) 1. 65 ,我们就保留零假设。否则 ,可以推 翻零假设 ,而得出两者可以构成显著搭配的结论。 通常情况下 ,我们把 T 值等于或大于 2 的搭配词 作为显著搭配词。我们仍以 nuclear 为例 ,计算其 T值。 f ( e) = f ( y) ΠN ×f ( x) ×2 S = 493Π1 185 594 ×1 567 ×8 = 5. 21 t = [ f ( o) - f ( e) ]ΠSD = [133 - 5. 21 ]Π 5. 21 ×(1 - 0. 000 4) = 55. 98   由于 T = 55. 98 > 1. 65 ,所以我们有 95 %的把 握推翻零假设 ,而得出结论 :nuclear 和 power 能构 成显著搭配。表 3 是节点词 power 在 JDEST语料 库中 T值最高的 20 个搭配词 : 表 3  power 在 JDEST语料库中 T值最高的 20 个搭配词 rank collocates fy fxy tscore rank Collocates fy fxy tscore rank Collocates fy fxy tscore 1 nuclear 493 133 55. 98 8 reactor 664 49 15. 85 15 Reactive 53 10 12. 61 2 plants 207 55 35. 7 9 stroke 59 12 14. 4 16 Dissipation 27 7 12. 57 3 plant 466 73 30. 67 10 excursion 11 5 14. 32 17 Generation 180 19 12. 39 4 horse 13 10 26. 6 11 Output 503 38 14. 17 18 Consumption 66 11 12. 33 5 supply 290 44 23. 38 12 Supplies 57 11 13. 39 19 Unit 463 31 11. 8 6 stations 74 19 20. 6 13 Watts 18 6 13. 32 20 Full 360 26 11. 38 7 station 122 22 18. 24 14 Solar 222 22 12. 83   观察表 3 可看出该表中的搭配词既不与表 1 频率表中的共现词完全相同 ,也与表 2 MI 值表中 的搭配词有所区别。如定冠词 the 与 power 共现 的 MI值 (5. 91) 和 T 值 ( - 1. 78) 都很低 ,这说明 the 位于频数之首在很大程度上是因为它是一个 高频词 ,而不是因为与 power 有较强的搭配力。 MI值表中的 throttles 一词 ,尽管搭配力较强 ,但与 节点词共现频数太少 ,缺少足够证据 ,因此在 t 检 验中也被过滤掉。而对于 nuclear , plants , horse , supply , stations ,excursion , watts 等词 ,我们可以准 确地断定它们是 power 的典型搭配词 ,因为它们 的 MI值和 T值都达到显著性水平。   三、结语 本文重点介绍了词语搭配研究中常用的三种 统计方法的理念和实现方法 ,并对它们在词语搭 配研究中的不同功能进行了区别。分析表明共现 频率可以使研究者很容易找到一些明显的搭配词 (“nuclear power”,“power plant”等) ,MI 值测量的 是搭配强度 ,它有助于识别科技术语和固定词组 (“outage power”,“access power”等) ,而 T值反映的 是对显著搭配词的把握性 (certainty) ,能使研究者 有把握地确定与节点词共现频数较高的显著搭配 词 (“horse power”,“supply power”,“power station” 等) 。在实际的词语搭配研究活动中 ,我们可以将 MI值和 T值结合使用 ,如果一个搭配词的两种统 计量都达到显著性水平的话 ,那么它肯定就是节 点词的显著搭配词。 参考文献 : [1 ]Firth J R. Papers in Linguistics 1934 - 1951[M]. London : Oxford University Press , 1957. [2 ]Sinclair J . Beginning the study of lexis[A ] . In :Bazel C E , Catford J C , Halliday M A K ,et al. In memory of J . R. Firth[ C] .London : Longman ,1966. 4102430. [3 ]Hunston S. Corpora in Applied Linguistics[M] . Cambridge : Cambridge University Press ,2002. [4 ]Church K, et al. Using statistics in lexical analysis[A ] . In : Zernik U. Lexical Acquisition : Exploring On2line Resources to Build a Lexicon [ C ] . Hillsdale , NJ : Lawrence Erlbaum Associates ,1991. [5 ]Church K,Hanks P. Word association norms , mutual infor2 mation and lexicography[J ] . Computational Linguistics ,1990 (16) : 22229. 77第 4 期             邓耀臣 :词语搭配研究中的统计方法             
本文档为【词语搭配研究中的统计方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_094224
暂无简介~
格式:pdf
大小:294KB
软件:PDF阅读器
页数:4
分类:
上传时间:2011-08-28
浏览量:66