首页 基于R-gram的语料库分析软件PowerConc的设计与开发

基于R-gram的语料库分析软件PowerConc的设计与开发

举报
开通vip

基于R-gram的语料库分析软件PowerConc的设计与开发第149期2013年1月外语电化教学CAFLENo.149Jan.2013基于R—gram的语料库分析软件PowerConc的设计与开发许家金,贾云龙(北京外国语大学中国外语教育研究中心,北京100089)摘要:在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regularexpressions)的N元组(N—gram)为基础。...

基于R-gram的语料库分析软件PowerConc的设计与开发
第149期2013年1月外语电化教学CAFLENo.149Jan.2013基于R—gram的语料库分析软件PowerConc的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 与开发许家金,贾云龙(北京外国语大学中国外语教育研究中心,北京100089)摘要:在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regularexpressions)的N元组(N—gram)为基础。二者的有机结合即本文所提出的R.gram。R.gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法——SmartInput,降低了用户使用的难度,提高了软件的易用性。PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料库语言学研究的开展。关键词:语料库分析工具;PowerConc软件;R—gram;语料库中图分类号:H319.3文献标识码:A文章编号:1001—5795(2013)01-0057-0006l语料库分析软件的开发背景1.1引子语料库研究需要对大量文本进行计算机分析,其中语料库分析软件的作用十分关键,且很大程度上决定着研究数据的准确性和可靠性。没有良好的语料库工具支持,语料库研究便难以有效开展。目前常用的语料库分析工具有:MikeScott设计的WordSmithTools(以下简称WordSmith)、LaurenceAnthony设计的AntConc、MichaelBaflow设计的MonoConcPro和R.Watt设计的Concordance等。其中WordSmith功能最全,学界认可度最高。其他软件有的是WordSmith的(部分)重写,有的只能实现WordSmith的少量功能。综合来看,这些软件通常包含词汇索引(concordan—cing)、词表生成(wordlist)、主题词计算(keywords)等功能,但在统计和搭配计算等方面,对正则表达式(regularexpressions)和N元组(N—gram)的支持,易用性和计算效率方面还有待提高。近些年来,国内外语料库建设蓬勃发展,但语料库分析软件的开发却相对滞后,一方面新工具开发较少,同时,原有语料库分析工具升级缓慢,在核心功能上改进不大。本研究希望结合语料库语言学近年的发展,开发出与之相适应的分析工具。1.2语料库分析软件发展概述语料库是指按一定原则取样获得的大规模电子文本汇集(Sinclair,1991;Hunston,2002;Baker,2006)。语料库规模通常很大,因此需要借助计算机软件来辅助分析。近半个世纪以来,语料库分析工具层出不穷,数量、种类不断增加。语料库软件包括:词汇索引工具(concordancer)、自动和手工标注工具(词性标注、句法标注、语义标注、语用标注等)、文本整理工具(文本格式转换、文本编作者简介:许家金:男,博士,副教授。研究方向:话语分析、语料库语言学。贾云龙:男,硕士。研究方向:语料库语言学、教育技术。收稿日期:2012-08-18基金项目:本文的撰写得到国家社科基金项目“基于双语语料库的汉语复杂动词结构英译研究”(项目编号:12CYY060)和教育部“新世纪优秀人才支持 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 ”(项目编号:NCET一12-0790)的资助。·57·许家金,等:基于R—gram的语料库分析软件PowerConc的设计与开发码转换)、口语转写工具、统计分析工具等。语料库分析工具中最常用的是索引工具。一般所谓的通用型语料库分析工具即指索引工具。最早的计算机索引工具由Robe~oBusa于1951年开发(McEnery&Hardie,2012:37)。当时的索引工具只能提供索引行语言实例。后来索引工具的功能得到很大扩展,但名称仍然叫做索引工具。现在的通用型索引工具,通常至少包括生成索引行和词表两大功能。根据McEnery&Hardie(2012:37-48)对语料库分析工具的时代划分,我们将相关工具开发情况汇总如表1。表1四代语料库分析工具1997MikeScott第2012MikeScott三2002LaurenceAnthony代早于1999Michae1Bad0wW0rdSmithToolsV2.0WordSmithToolsV6.0AntConcMonoConcPro早于2005LouBumard&TonyDoddXaira其中,第一代和第二代索引工具主要是在DOS环境下运行。第一代工具更受硬件限制,运行速度缓慢。第二代索引工具已能初步实现今天索引工具的基本功能,如:索引行的生成、词频表、短语表的生成,甚至是词语搭配的计算(如TACT)。第三代语料库工具以WordSmith为代表,这些软件主要在Windows或其他图形界面操作系统中运行。WordSmith是商业软件,AntConc为功能相近的免费替代软件。这两款软件最能代表第三代语料库分析工具,两者都拥有广泛的用户群体。WordSmith各版本主要功能划分为三大模块,即:词汇索引(Concord)、主题词(KeyWords)、词频表(WordList)。到5.0版本(2008年)以后,WordSmith增加了框合结构(Conc—Gram)功能,但从界面功能划分看,主要还是维持三大核心模块。大模块下还有词簇提取(cluster)和词语搭配等子功能模块。WordSmith的三大模块成为了通用·58·语料库软件开发领域的事实 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 。第四代语料库工具主要指基于互联网的语料库网络应用(webapplication)。这类工具通过浏览器与服务器的交互,将语料库与检索工具融为一体。这些工具基于数据库和索引技术,检索响应时间快,用户体验好,一般用来处理大型语料库,如BNC。但这些工具的灵活性不够,用户通常无法(或很难)处理本地语料库,同时,因受索引格式和数据量的限制,检索语法一般较为简单,不支持复杂检索。因此,当前及今后很长一段时间,第三代和第四代语料库分析工具将会并存。从研究者的角度看,第三代语料库软件更能满足个人的实际研究需要。我们所开发的工具即属于第三代语料库工具。本研究主要关注单语语料库,双语和多语语料库的分析处理并不涉及。1-3第三代语料库工具的不足WordSmith和AntConc是目前较有代表性的第三代语料库分析工具,但前者不支持正则表达式,且界面复杂,不易操作;后者较为易用,但功能较少、计算效率较低,处理语料时容易死机或意外退出。因此,在借鉴WordSmith和AntConc优点的基础上,本研究开发了PowerConc软件,对语料库软件的功能进行了梳理和扩充,并在软件易用性和计算效率上进行了优化。PowerConc由许家金、梁茂成、贾云龙设计,贾云龙负责程序开发。PowerConc软件的开发是对此前北外语料库语言学团队开发的Keywordsplus、Col—locator、Colligator(许家金、熊文新,2009)等系列软件的整合。2基于R-gram的PowerConc软件的设计与开发PowerConc软件使用Delphi语言开发,支持Win.dows操作系统。与以往语料库分析软件相比,Pow.erConc具有以下特点:2.1支持多种格式和不同语言的语料PowerConc在底层是基于ANSI编码的,除了支持英文,ANSI编码在不同语言的操作系统中对应不同的字符集,以支持相应的操作系统默认语言,如:在简体中文系统中,ANSI代表GB2312编码;在日文操作系统中,ANSI代表Shift—JIS编码。因此,PowerConc在不同语言操作系统中,可同时支持英文和该操作系统所对应的默认语言。对简体中文操作系统而言,PowerConc至少能同时处理英文和中文两种语言的文本。许家金,等:基于R—gram的语料库分析软件PowerConc的设计与开发PowerConc未来会以独立版本的形式支持Unicode编码的文本,以便能处理多种语言。因字符编码和存储长度等原因,Unicode版软件效率会远低于ANSI版。若仅是处理某一种语言(操作系统默认语言)或英语语料,使用ANSI编码不失为两全其美的选择。PowerConc按语言特征将语料分为两大类:(1)无空格的连续文本:这类语料以字符为基本单位,字符间无空格分隔。未分词的汉语和日语等语言构成的语料,都属于这一类。(2)以空格分词的文本:这类语料以词为基本单位,词与词之间以空格分隔。英语语料属于这一类,分词后的汉语、日语等语言构成的语料也属于这一类。PowerConc按语料加工的程度将语料分为三大类:生语料:主要指未经加工处理的原始语料,如:面对严重灾情,广东省各级党组织和广大党员,带领广大群众万众一心抗击冰雪灾害。CorpusLinguisticsisempiricalbynature.切分语料:分词后的语料,如:会议听取了有关阿坝藏族羌族自治州汶川县等地灾情的汇报。标注语料:对语料进行词性赋码后产生的语料,如:Miss—NNBGreen—NP1came—VVDin—IIsecrectly—RR国家一n体育馆一n瞬间一nt成为一v欢乐一a的_u海洋一n基于以上分类标准,在简体中文操作系统环境下,ANSI版的PowerConc软件共支持五类语料:英文生语料、英文标注语料、中文生语料、中文切分语料、中文标注语料。PowerConc目前只支持“词汇一码”格式的标注语料,即:词汇在前,标注码在后,词码间以下划线“一”连接。对于英文生语料,PowerConc将自动在标点前添加空格,以去除标点符号对检索的干扰。本文将以英文语料为主,对PowerConc的各项功能进行介绍。2.2支持R-gram基于N元组的检索分析是对单词的扩充,它突破了研究单位长度的限制。PowerConc除了检索及统计功能完全支持N元组外,其搭配计算、词表生成和关键词计算也完全支持N元组,PowerConc将单词视作一元组(uni—gram)处理。正则表达式是语料库分析的利器,它的最大特点之一在于其高度的概括性,使研究者可以按字符种类、字符数量和字符位置三个维度描述字符特征,使研究的范围得到了极大的丰富。PowerConc在N元组中加入了对正则表达式的支持,使N元组得到了扩展。本研究把基于正则表达式的N元组称为R—gram。在描述能力方面,R.gram非常强大,它既可以描述具体的语言单位(如单词或短语),也可以对抽象的语言现象(如,动词+名词、a+名词+of)进行描述;R.gram不像单词和N元组那样受长度的限制。总之,R.gram继承了正则表达式的优点,具有高度灵活性和抽象度,可以对长度和种类都不确定的语言单位进行描述,词汇和N元组都可以看作是R.gram的子集。对于赋码语料,R—gram的优势表现得尤为突出,可以对不同数据类型的语言单位进行描述。R—gram除了用于检索外,也可用于搭配计算。PowerConc支持针对R-gram的搭配计算,用户可自定义一个R.gram列表,PowerConc将在指定跨距内计算这些R—gram和节点(nodeterm)的搭配强度,这扩大了搭配研究的范围,使研究者可以对更为抽象和复杂的搭配现象进行研究。正则表达式的缺点是语法抽象复杂,可读性差,不便掌握,对于初学者而言,出错的几率很高。为使R-gram便于操作和容易理解,我们设计了一种全面兼容正则表达式的简易语法——smanInput,以降低用户的检索难度。2.3支持SmartInput语法SmartInput语法主要包含以下内容,软件会将用户输入的SmartInput语法自动转换成相应的正则表达式:(1)“@”(@符):@放在单词原形前,表示将匹配该单词的所有屈折形式,如:@be将匹配am、are、be、been、being、is、was和were等8种形式;(2)“#”(#号):#放在词性类别码(如:n、v、adj等)之前,表示将匹配该词性大类对应的各词性码子类,对CLAWS(C7)赋码语料,#n将匹配NN、NN1、NN2、NP等22类表示名词(n)的词性码;(3)“”(星号):对于以空格分割的文本代表任意一个词,如:beat将匹配begoodat、beamazedat等;对于无空格分割的汉语文本代表一个字,如:国;.c将匹配“国家”、“国际”等;(4)词性码检索:对于词性赋码语料,可直接输入词性码或码串进行检索,如:对CLAWS(C7)赋码语·59·许家金,等:基于R.gram的语料库分析软件PowerConc的设计与开发成本和操作难度。PowerConc将语料库分析归为微观和宏观两大类,词汇索引主要是对某个或某类语言现象进行的有针对性的分析,属微观分析;词表是对语料库整体情况的考察,属宏观分析。PowerConc共五个模块,检索相关的功能包括三个子模块,词表相关的分析包含两个子模块:(I)检索相关功能(微观分析)(1)词汇索引(Concordance):根据输入内容进行检索并返回索引行;(2)结果统计(Statistics):对检索命中的内容进行统计;(3)搭配/类联接计算(Collocation&Colligation):根据索引行计算检索结果的搭配信息。(Ⅱ)词表相关功能(宏观分析)(1)词表生成(N—gramlist):根据指定的数据类型和长度生成词表;(2)主题性计算(Keyness):根据参考词表计算主题词,或主题短语。每个模块的操作又可细分为参数设置、数据计算、分布统计、结果显示、结果排序、结果过滤、结果抽样、结果保存八个类别。3PowerConc、WordSmith、AntConc的对比PowerConc不是对WordSmith等软件的重写或复制,PowerConc有其独立的设计原则。继承发扬:吸收以往语料库软件中那些广为接受的功能(如:词汇索引、词表等),在充分考虑用户体验的基础上,删繁就简,对功能的设计、展示和实现方式进行优化,以降低学习成本和操作难度,并将它们纳入PowerConc的统一设计框架中,使软件设计具有高度一致性;其次,对这些功能进行扩展,丰富已有功能;再次,对算法进行优化,提高程序处理数据的能力和效率。将PowerConc与AntConc和WordSmith进行对比,可以归纳出以下几方面差异:学习成本和操作难度:三款软件中PowerConc的学习成本和操作难度最低,具有一般软件操作的常识和语料库的基本知识的研究者,都可以很快上手。WordSmith的学习成本和操作难度最高,它的功能非常繁杂,即使经验丰富的研究者也很难快速掌握它的全部功能,WordSmith6.0(最新版)的 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 书已达415页。AntConc学习难度居中,但配置复杂,不便操作。功能划分和界面布局:PowerConc完全以研究者的视角来进行功能划分和界面布局,全部功能的设计遵守统一 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 ,用户可举一反三。WordSmith的功能规划和界面设计不合理,不符合常规软件的设计原理,若不借助说明书,仅靠界面本身提供的信息,很难进行操作。AntConc在WordSmith基础上进行了一定的优化,但在局部设计上,缺乏连贯性。核心功能:PowerConc和AntConc对WordSmith的功能进行了取舍,分别实现了WordSmith的词汇索引、词表、关键词计算三大核心功能。AntConc几乎是对WordSmith三大功能的简化和重写,相对WordSmith而言没有本质的变化。PowerConc以R—gram为基础重新设计,使语料库软件的功能得到了扩展。功能创新:WordSmith不支持正则表达式,这使它的功能受到了极大的限制。WordSmith历史较久,版本众多,但每一个新版本的变化并不大,通常只是加入了个别新功能或修正个别小错误,而核心功能几乎没有多少改变。AntConc加人了对正则表达式的支持,但相对WordSmith而言,其功能并无创新。PowerConc最大的创新是对R—gram和SmartInput的支持,它使语料库研究的范围得到了扩展。同时,PowerConc对数据分布统计也具有很好的实现。算法效率:因为功能设计的差距,三个软件很难直接对算法效率进行对比。整体而言,AntConc的算法效率最低,对数据量的大小较敏感,容易死机或意外退出。WordSmith的效率一般,算法没有进行优化,个别计算要耗费大量的时间。PowerConc在算法优化上做了大量尝试,最大程度上避免了数据拷贝带来的资源浪费,同时一些模块使用了缓存方式以避免信息的重复计算,使计算效率大大提升。可扩展性:PowerConc基于面向对象的方法开发,核心功能被封装在不同的类(Class)中,实现了界面和功能的分离。这使PowerConc具有非常好的扩展性,一方面,可以不断对现有功能进行升级和维护,也可以加入新功能;另一方面,可以利用这些核心功能类,开发出衍生产品。这些优势是AntConc和WordSmith等软件不具备的。WordSmith的升级和维护几乎是用打补丁的方式进行的,这使WordSmith的安装包越来越大,操作越来越复杂。WordSmith6.0的安装文件有54MB,安装后有108个文件,而AntConc和PowerConc都是绿色软件,无需安装,AntConc3.2.4(最新版)的大小是4.4MB,PowerConc只有1.5MB。相信PowerConc的开发将有效促进语料库语言学·61·
本文档为【基于R-gram的语料库分析软件PowerConc的设计与开发】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥15.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
格嫒
喜欢讲课
格式:pdf
大小:1018KB
软件:PDF阅读器
页数:6
分类:建筑/施工
上传时间:2019-07-29
浏览量:50