兰开斯特汉语语料库介绍

兰开斯特汉语语料库介绍兰开斯特汉语语料库介绍北京外国语大学许家金 1.0 前言兰开斯特汉语语料库（The Lancaster Corpus of Mandarin Chinese，简称LCMC）是在Tony McEnery教授指导下，由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担，由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English（即FLOB）模式编制的汉语书面语语料库，它...

兰开斯特汉语语料库介绍北京外国语大学许家金 1.0 前言兰开斯特汉语语料库（The Lancaster Corpus of Mandarin Chinese，简称LCMC）是在Tony McEnery教授指导下，由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担，由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English（即FLOB）模式编制的汉语书面语语料库，它的建成有助于我们从事基于语料库的汉语单语或汉英（英汉）双语的对比研究。 2.0 LCMC语料库概况 LCMC是一个100万词次（按每1.6个汉字对应一个英文单词折算）的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是：尽管已经有很多汉语语料库存在（Yang 2003），但却没有一个完全免费对公众开放的平衡的汉语语料库。 2.1 取样模式与文本收集考虑到该语料库将来主要是要作对比研究之用，于是一开始就必须确定将来对比的对象。一方面，在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面，要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是，最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在，LCMC建成以后也可以与美国英语进行比较。最后，确定下来的方案是按FLOB的构建模式，从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。 LCMC的筹建基本上是严格按照FLOB的取样模式来操作的，只是在两个方面做了微调。第一、FLOB的取样范畴中，肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”；另一方面，“武侠小说”和“西部和历险小说”从内容性质上同属一类，且在中国影响甚巨。有充足的理由将其收入LCMC中。表1：LCMC取样范畴表代码取样类型代码取样类型 A 新闻报道 J 学术、科技 B 社论 K 一般小说 C 新闻评论 L 侦探小说 D 宗教 M 科幻小说 E 技术、商贸 N 武侠小说 F 通俗社会生活 P 爱情小说 G 传记和杂文 R 幽默 H 其他：报告和公文等第二、由于受到文本来源的制约，肖忠华将样本的出版年代扩大至1991年前后各两年（即1989到1993年）的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。为了保证取样内容的同质性，LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库，选取文本时碰到图表一般使用来代替。为了保证所选文字是原汁原味的汉语，如果在选文中遇到较长的译文或不是1989到1992年期间的引文，也采用来替代，以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网，其他大部分语料取自超星图书馆（www.ssreader.com）。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件，由此产生的1-3%的识别错误率再经过人工校对加以弥补。超星图书馆是一个巨大的电子书库，但是却很少包含新闻报刊。因此，LCMC中新闻文体有三分之一的内容用的是新华社新闻（取自Guo Jin编写的PH语料库）。表2：LCMC的取样时间跨度取样类型 1989 1990 1991 1992 1993 A --- 22.7% 72.7% 2.3% 2.3% B 7.4% 14.8% 51.9% 3.70% 22.2% C --- 5.9% 88.2% 5.9% --- D 5.9% 17.6% 41.2% 11.8% 23.5% E --- 23.7% 44.7% 10.5% 21.1% F 6.8% 25% 29.5 13.6% 25% G 1.3% 10.4% 64.9% 16.9% 6.5% H --- --- 100% --- --- J 1.2% 7.5% 72.5% 17.5% 1.3% K --- --- 79.3% 13.8% 6.9% L --- 8.3% 62.5% 16.7% 12.5% M --- --- 100% --- --- N 3.4% 13.8% 48.3% 31.1% 3.4% P 10.3% 6.9% 55.2% 20.7% 6.9% R --- --- 44.4% 22.2% 33.3% 在计算LCMC语料库的规模时，经过测算，采用了1汉字:1英文单词 = 1:1.6的计算方法。于是将FLOB的2,000字的样本大小确定为每个样本3,200个汉字。当所选样本长度不足3,200汉字时，则选取同一类型的其他文本补足。如果超过3,200字（比如一本书）则选取开头、中间、结尾凑足3,200字。在样本的最末处，为保证句子的完整而不将句子人为切断，因而样本会比3,200字略多或略少。 2.2 标注和编码方式 LCMC采用Unicode (UTF-8)而没有采用简体中文的GB2312和繁体中文的Big5编码，原因有二：（1）为保证与非中文操作系统和其他中文编码形式的兼容性；（2）这样的话可以充分利用可以读取Unicode字符的索引软件，像Xara和WordSmith Tools version 4.0。为了给非英语操作系统用户避免读取困难，肖忠华特意制作了完整的拼音版LCMC（也同样采取Unicode UTF-8编码形式），与汉字版的LCMC同步推出。汉字版和拼音版的LCMC都分别分成15个文本类型（见表1），每一个类型存为一个单独的文件并采取XML标注。每个文件包括一个头文件和文本本身。文本采取了五重标注。见表3。表3：文本的XML标注标注层代码代码意义属性含义 1 text 文本类型 TYPE 根据表1的取样范畴 ID 根据表1的取样代码 2 file 语料库中的位置 ID 取样代码加上从01开始的文本编号 3 p 段落 --- --- 4 s 句子 n 从0001算起 5 w 单词 POS 依据LCMC标注集的语法标注 c 标点或其他符号 gap 省略 --- --- 这样分层标注以后，非常有利于用户在检索时选择整个语料库或者一个子库甚至某个文件进行分析。语法（POS）标注可以帮助我们检索某些汉字的特定词性的使用情况。 2.3 语料深加工对于LCMC语料库，肖忠华还做了两重处理：即所有样本文句都依词断开（这是任何成熟汉语语料库必需的一项工作）并标示词性（参见图1）。对于汉语文本来说切分至关重要，因为它没有类似英文的空格作为单词分隔符。 LCMC所采用的切分工具是由中科院计算所开发的“汉语词汇分析系统”。这一系统的核心是由一个有词性和词频信息的8万字的词库。这一系统是基于最大匹配的计算方法，包含汉字切分，词性标注和未登录词的识别等模块。切分正确率可以达到97.58%。但这一系统对词性的标注却不够精准。比如说它无法区分介词“在”和表示体态的“在”。于是最后肖忠华对语料进行了大量的手工校对，词性标注正确率基本可以达到98%以上。因为要研究汉语并对比汉英的时体标记，肖忠华对“了”、“过”、“着”、“在”进行了细致的校对。最后完成的语料全部保存为XML格式文件。图1： LCMC标注示例

淡泊洒脱：笑对人生便是淡泊的表现，淡泊洒脱能拓展一片宽松美好的天地，使人在开放的田园里找准自己的位置，使自己与同事愉快相处。

3.0 研究成果和目前进展因为该语料库刚刚建成，因此基于该语料库的研究成果并不多。主要是作为申请该项目时的课题“汉英时体的对比研究”的相关成果。如Aspect Marking in English and Chinese。不过我们有理由相信这样一个精心建设的语料库一定会产生出更多的汉语或汉英（英汉）对比的研究成果。 LCMC语料库要求用户有可以读取XML的检索工具像Xara (是用于BNC的Sara软件的改进版)或者有WordSmith Tools version 4.0。目前这两款软件都尚未完全发布。而LCMC针对这些软件的后期测试也正在进行，估计于2003年8、9间最后推出。该语料库完全免费提供，读者可以向本文作者索取。参考文献 McEnery, Anthony, Zhonghua Xiao and Lili Mo. (under review). The Lancaster Corpus of Mandarin Chinese: A Corpus for Monolingual and Contrastive Studies [J]. Yang, Xiaojun. 2003. Survey and Prospect of China’s Corpus-Based Researches [P]. Paper presented at the Corpus Linguistics 2003 conference at Lancaster University (UK), 28 - 31 March 2003. 肖忠华，2003，个人通讯。通讯地址：100089北京外国语大学169信箱

                    本文档为【兰开斯特汉语语料库介绍】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

兰开斯特汉语语料库介绍

你可能还喜欢