兰开斯特汉语语料库介绍
北京外国语大学 许家金
1.0 前言
兰开斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,简称LCMC)是在Tony McEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English(即FLOB)模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英汉)双语的对比研究。
2.0 LCMC语料库概况
LCMC是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料库存在(Yang 2003),但却没有一个完全免费对公众开放的平衡的汉语语料库。
2.1 取样模式与文本收集
考虑到该语料库将来主要是要作对比研究之用,于是一开始就必须确定将来对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美国英语进行比较。最后,确定下来的
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
是按FLOB的构建模式,从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。
LCMC的筹建基本上是严格按照FLOB的取样模式来操作的,只是在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC中。
表1:LCMC取样范畴表
代码
取样类型
代码
取样类型
A
新闻报道
J
学术、科技
B
社论
K
一般小说
C
新闻评论
L
侦探小说
D
宗教
M
科幻小说
E
技术、商贸
N
武侠小说
F
通俗社会生活
P
爱情小说
G
传记和杂文
R
幽默
H
其他:报告和公文等
第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。
为了保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库,选取文本时碰到图表一般使用
来代替。为了保证所选文字是原汁原味的汉语,如果在选文中遇到较长的译文或不是1989到1992年期间的引文,也采用来替代,以避免
翻译
阿房宫赋翻译下载德汉翻译pdf阿房宫赋翻译下载阿房宫赋翻译下载翻译理论.doc
腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网,其他大部分语料取自超星图书馆(www.ssreader.com)。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件,由此产生的1-3%的识别错误率再经过人工校对加以弥补。超星图书馆是一个巨大的电子书库,但是却很少包含新闻报刊。因此,LCMC中新闻文体有三分之一的内容用的是新华社新闻(取自Guo Jin编写的PH语料库)。
表2:LCMC的取样时间跨度
取样类型
1989
1990
1991
1992
1993
A
---
22.7%
72.7%
2.3%
2.3%
B
7.4%
14.8%
51.9%
3.70%
22.2%
C
---
5.9%
88.2%
5.9%
---
D
5.9%
17.6%
41.2%
11.8%
23.5%
E
---
23.7%
44.7%
10.5%
21.1%
F
6.8%
25%
29.5
13.6%
25%
G
1.3%
10.4%
64.9%
16.9%
6.5%
H
---
---
100%
---
---
J
1.2%
7.5%
72.5%
17.5%
1.3%
K
---
---
79.3%
13.8%
6.9%
L
---
8.3%
62.5%
16.7%
12.5%
M
---
---
100%
---
---
N
3.4%
13.8%
48.3%
31.1%
3.4%
P
10.3%
6.9%
55.2%
20.7%
6.9%
R
---
---
44.4%
22.2%
33.3%
在计算LCMC语料库的规模时,经过测算,采用了1汉字:1英文单词 = 1:1.6的计算
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
。于是将FLOB的2,000字的样本大小确定为每个样本3,200个汉字。当所选样本长度不足3,200汉字时,则选取同一类型的其他文本补足。如果超过3,200字(比如一本书)则选取开头、中间、结尾凑足3,200字。在样本的最末处,为保证句子的完整而不将句子人为切断,因而样本会比3,200字略多或略少。
2.2 标注和编码方式
LCMC采用Unicode (UTF-8)而没有采用简体中文的GB2312和繁体中文的Big5编码,原因有二:(1)为保证与非中文操作系统和其他中文编码形式的兼容性;(2)这样的话可以充分利用可以读取Unicode字符的索引软件,像Xara和WordSmith Tools version 4.0。为了给非英语操作系统用户避免读取困难,肖忠华特意制作了完整的拼音版LCMC(也同样采取Unicode UTF-8编码形式),与汉字版的LCMC同步推出。
汉字版和拼音版的LCMC都分别分成15个文本类型(见表1),每一个类型存为一个单独的文件并采取XML标注。每个文件包括一个头文件和文本本身。文本采取了五重标注。见表3。
表3:文本的XML标注
标注层
代码
代码意义
属性
含义
1
text
文本类型
TYPE
根据表1的取样范畴
ID
根据表1的取样代码
2
file
语料库中的位置
ID
取样代码加上从01开始的文本编号
3
p
段落
---
---
4
s
句子
n
从0001算起
5
w
单词
POS
依据LCMC标注集的语法标注
c
标点或其他符号
gap
省略
---
---
这样分层标注以后,非常有利于用户在检索时选择整个语料库或者一个子库甚至某个文件进行分析。语法(POS) 标注可以帮助我们检索某些汉字的特定词性的使用情况。
2.3 语料深加工
对于LCMC语料库,肖忠华还做了两重处理:即所有样本文句都依词断开(这是任何成熟汉语语料库必需的一项工作)并标示词性(参见图1)。对于汉语文本来说切分至关重要,因为它没有类似英文的空格作为单词分隔符。 LCMC所采用的切分工具是由中科院计算所开发的“汉语
词汇
英语3500词汇语境记忆pets3考试词汇二年级反义词和近义词初中词汇词汇大全考研英语二高频词汇表
分析系统”。这一系统的核心是由一个有词性和词频信息的8万字的词库。这一系统是基于最大匹配的计算方法,包含汉字切分,词性标注和未登录词的识别等模块。切分正确率可以达到97.58%。但这一系统对词性的标注却不够精准。比如说它无法区分介词“在”和表示体态的“在”。于是最后肖忠华对语料进行了大量的手工校对,词性标注正确率基本可以达到98%以上。因为要研究汉语并对比汉英的时体标记,肖忠华对“了”、“过”、“着”、“在”进行了细致的校对。最后完成的语料全部保存为XML格式文件。
图1: LCMC标注示例
淡泊 洒脱 : 笑 对 人生 便是 淡泊 的 表现 , 淡泊 洒脱 能 拓展 一 片 宽松 美好 的 天地 , 使 人 在 开放 的 田园 里 找 准 自己 的 位置 , 使 自己 与 同事 愉快 相处 。
3.0 研究成果和目前进展
因为该语料库刚刚建成,因此基于该语料库的研究成果并不多。主要是作为申请该项目时的课题“汉英时体的对比研究”的相关成果。如Aspect Marking in English and Chinese。不过我们有理由相信这样一个精心建设的语料库一定会产生出更多的汉语或汉英(英汉)对比的研究成果。
LCMC语料库要求用户有可以读取XML的检索工具像Xara (是用于BNC的Sara软件的改进版)或者有WordSmith Tools version 4.0。目前这两款软件都尚未完全发布。而LCMC针对这些软件的后期测试也正在进行,估计于2003年8、9间最后推出。该语料库完全免费提供,读者可以向本文作者索取。
参考文献
McEnery, Anthony, Zhonghua Xiao and Lili Mo. (under review). The Lancaster Corpus of Mandarin Chinese: A Corpus for Monolingual and Contrastive Studies [J].
Yang, Xiaojun. 2003. Survey and Prospect of China’s Corpus-Based Researches [P]. Paper presented at the Corpus Linguistics 2003 conference at Lancaster University (UK), 28 - 31 March 2003.
肖忠华,2003,个人通讯。
通讯地址:100089北京外国语大学169信箱