首页 现代汉语语义词典规范

现代汉语语义词典规范

举报
开通vip

现代汉语语义词典规范...现代汉语语义词典规范​[1]​王惠Email:whui@pku.edu.cn(​mailto:whui@pku.edu.cn​)摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的结...

现代汉语语义词典规范
...现代汉语语义词典规范​[1]​王惠Email:whui@pku.edu.cn(​mailto:whui@pku.edu.cn​)摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。关键词:语义知识库语义类配价信息计算词典学中文信息处理TheSpecificationofTheSemanticKnowledge-baseofContemporaryChineseWangHui1,YuShiwen1,ZhanWeidong21(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)2(Dept.ofChineseLanguage&Literature,PekingUniversity,Beijing100871,China)whui@pku.edu.cn(​mailto:whui@pku.edu.cn​);yusw@pku.edu.cn(​mailto:yusw@pku.edu.cn​);zwd@pku.edu.cn(​mailto:zwd@pku.edu.cn​)Abstract:TheSemanticKnowledge-baseofContemporaryChinese(SKCC)isalargemachine-readabledictionarydevelopedbytheInstituteofComputationalLinguisticsandChineseDepartmentofPekingUniversity.Itcanprovidealargeamountofsemanticinformationsuchassemantichierarchyandcollocationfeaturesof66,539Chinesewords.ItssemanticclassificationsystemrepresentsthelatestprogressinChineselinguisticsandlanguageengineering.Thedescriptionsofsemanticattributesarefairlythorough,comprehensiveandauthoritative.ThepaperintroducestheoutlineandspecificationofSKCC,andindicatesthat,asalargescalefundamentalsemanticresourceofChinese,SKCCwillnotonlyprovidevaluablesemanticknowledgeforChineselanguageprocessing,butalsoplayanimportantroleinChineselexicalsemanticsandcomputationallexicographyresearch. Keywords:Semanticknowledge-base,lexicalsemantic,computationallexicography,semantichierarchy,valenceinformation,Chineselanguageprocessing1引言在自然语言处理中,语义分析占有很重要的位置。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”(SKCC),目的是在语法分析的基础上,为计算机自动分析汉语句子和生成英语句子提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:863-306-03-06-2)。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语常用实词(名词、动词、形容词)及部分成语、习用语的语义分类和搭配信息描述[1]。IBM、Intel、Fujitsu,Toshiba,NTT,Canon,Sail-labs等20多家公司与大学先后从北大购买了该词典的许可使用权。4年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,词典规模已达到6.6万余词条,同时语义属性描写质量有了显著提高。在一个汉英机器翻译系统中的实际应用表明,新版本的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地提高翻译精度。2现代汉语语义词典的内容概要2.1规模与结构语义词典(SKCC)原有词条48,835个,它们全部来自于北大计算语言学研究所开发的《现代汉语语法信息词典》(5万词版)。但1999年,后者的规模已由5万词扩充到了7万词[2],此后的继续改进又使得属性信息的质量有了很大提高[2]。相比之下,语义词典却仍然停留在原来的水平上,无论数量还是质量上,二者都已不太协调,不能满足与语法词典配套使用的实际需要。SKCC的二期工程及时吸收了语法信息词典的最新成果,对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、修订,而且增加了14,663个名词、动词、形容词,以及1993个区别词、时间词、处所词、方位词、副词、数词。现在语义词典SKCC的规模比原来增加了1.8万词语,达到了6.6万余条​[2]​。词典采用MicrosoftForxpro中文版6.0数据库实现,其中包含全部词语的总库1个,每类词语(实词)各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如,总库中包括词语、拼音、同形、义项、释义、语义类、词类、子类、兼类等8个属性字段。名词库设15个属性字段,动词库设16个属性字段,如此等等(见表1)。库名词条属性字段名词3752215时间词56715处所词18515方位词20415代词23615动词2114216形容词382715区别词75315状态词99715副词99711数词10911总库665398表1语义词典SKCC的规模所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接。这样,12个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,如图1。2.2词语的语义分类本词典语义分类的一个基本原则是,分类的深度与广度取决于语法分析的需要,应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。具体分类如下:(1)名词分类1具体事物(entity)1.1生物(organism)1.1.1人(person)1.1.1.1个人(individual)1.1.1.1.1职业(profession):教师秘书会计医生1.1.1.1.2身份(identity):华侨外行健将模范1.1.1.1.3关系(relation):父亲阿姨长辈朋友1.1.1.2团体(group)1.1.1.1.1机构(organization):工厂医院商店剧团1.1.1.1.2人群(society):人民委员会少先队团伙1.1.2动物(animal)1.1.2.1兽(beast):狗猪牛羊老虎豹子狐狸1.1.2.2鸟(bird):鸡鸭麻雀杜鹃1.1.2.3鱼(fish):鲤鱼河豚鲸泥鳅1.1.2.4昆虫(insect):蚯蚓知了蟑螂1.1.2.5爬行动物(reptile):青蛙乌龟甲鱼蛇1.1.3植物(plant):树花草牡丹芍药1.1.3.1树(tree):白杨水杉芭蕉1.1.3.2草(grass):狗尾巴草含羞草蒲公英1.1.3.3花(flower):牡丹芍药杜鹃映山红1.1.3.4庄稼(crop):蔬菜小麦高粱棉花1.1.4微生物(microbe):细菌病毒霉菌1.2非生物(object)1.2.1人工物(artifact)1.2.1.1建筑物(building):别墅礼堂会议室水库庙1.2.1.2衣物(clothes):服装外套衬衫裙子帽子1.2.1.3食物(food):面包牛奶菜米饭饮料1.2.1.4药物(drug):药片阿斯匹林酒精镇定剂1.2.1.5创作物(works): 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 书杂志文章油画电影1.2.1.6计算机软件(software):操作系统数据库程序软件1.2.1.7钱财(asset):财产钱资金报酬罚款美元利息1.2.1.9票据(bill):发票单据汇票支票包裹单1.2.1.10证书(certificate):结婚证执照毕业证驾驶证1.2.1.11符号(symbol):签名路标箭头句号1.2.1.12材料(material):木材钢铁煤炭玻璃水泥1.2.1.13器具(instrument)1.2.1.13.1用具(tool):剪子刀子钉子拖把改锥1.2.1.13.2交通工具(vehicle):车船飞机自行车1.2.1.13.3武器(weapon):大炮机关枪鱼雷1.2.1.13.4家具(furniture):桌子椅子沙发1.2.1.13.5乐器(musical-instrument):钢琴吉他鼓1.2.1.13.6电器(electricity):电视空调电冰箱1.2.1.13.7文具(stationery):钢笔橡皮尺子1.2.1.13.8运动器械(sports-instrument):足球单杠1.2.2自然物(naturalobject)1.2.2.1天体(celestialbody):太阳月亮流星星星1.2.2.2气象(weather):云彩虹晚霞1.2.2.3地理(geography)1.2.2.3.1地表物(land):原野沙漠山山洞陆地1.2.2.3.2水域物(water):江河湖海河流1.1.2.2.4矿物(mineral):煤矿原油铁矿1.1.2.2.5元素(element):金银铜铁1.1.2.2.6基本物质(substance):水土灰1.2.3排泄物(excrement):汗尿粪便奶水眼泪1.2.4外形(shape):粉末长方形圆窟窿孔洞泡1.3构件(part)1.3.1身体构件(body-part):头脸鼻子嘴耳朵头发血液骨头1.3.2非生物构件(object-part):梁屋檐车闸车筐2抽象事物(abstraction)2.1属性(attribute)2.1.1量化属性(measurable):体积面积重量质量价格2.1.2模糊属性2.1.2.1人性(property_of_human):胆量勇气脾气作风2.1.2.2事性(description_of_event):境况形势状态环节2.1.2.3物性(property_of_object):性能效用品种式样2.1.3颜色(color):黑色白色浅色素色2.2信息(information):话言语信件口信密码声明借口2.3领域(field):社会经济法律科学艺术2.4法规(rule):法律条约 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 制度规章 合同 劳动合同范本免费下载装修合同范本免费下载租赁合同免费下载房屋买卖合同下载劳务合同范本下载 协议条文2.5生理(physiological_state):瘟疫疾病炎症艾滋病2.5心理特征(psycholfeature)2.5.1情感(feelings):态度感情爱情2.5.2意识(cognition):意图幻想兴趣主意见解2.6动机(motivation):目的原因理由3过程(process)3.1事件(event):学潮球赛晚会课早餐战争火灾3.2自然现象(naturalphenomenon)3.2.1可视现象(visiblephenomenon):火电光风雨3.2.2可听现象(audiblephenomenon):声音雷鸣风暴4时间(time)4.1绝对时间(specifictime):宋朝三国清代4.2相对时间(relativetime):昨天当代古代今天5空间(space)5.1处所(location):浙江西湖黄山中国亚洲5.2方位(direction):东南前面之间途中高空(2)形容词分类1事性值:紧急突然困难容易错误费时2物性值2.1量化属性值(measurablevalue):2.1.1浓度(concentration):浓稀薄2.1.2温度(temperature):热冷凉爽2.1.3速度(speed):快慢2.1.4长度(length):长短2.1.5高度(height):高矮低2.1.6宽度(width):宽窄2.1.7深度(depth):深浅2.1.8厚度(thickness):厚薄2.1.9硬度(rigidity):硬软2.1.10湿度(humidity):潮湿湿润干燥2.1.11粗细(degreeoffinish):粗细2.1.12松紧(degreeoftightness):松紧2.1.13大小(size):大中小2.1.14价值(value):贵便宜2.2模糊属性值(unmeasurablevalue)2.2.1视感(vision):亮醒目清晰混浊2.2.2触感(tactility):紧松粗糙滑柔2.2.3音质(tone):响亮低沉刺耳2.2.4味道(taste):酸甜苦辣可口2.2.5性质(quality):新旧真假好坏强弱2.2.6内容(content):空洞晦涩清楚浅显2.2.7外形(shape):方圆尖2.3颜色(color):红黄蓝绿鲜艳3人性值3.1年龄(age):年轻幼小老3.2品格(character):善良博学幼稚优雅3.3关系(relation):亲密疏远热情冷淡3.4境况(condition):繁忙贫穷危险疲劳4空间值4.1一维值:远近4.2二维值:平斜弯4.2三维值:拥挤杂乱整齐满壮阔5时间值:古老久远短暂早晚(3)动词分类1静态关系(state):是有等于包括2心理活动(emotion/cognition):喜欢尊敬反对同意怀疑思考判断3动态行为(event)3.1变化(change):死病下降长高缩小变暗3.2气象(weather):下雨刮风打雷起雾3.3身体活动(bodilycareandfunctions):蹬跳推笑咳嗽游泳3.4五官感觉(perception):看见听到闻着品尝3.5消耗(consumption):吃喝饮3.6位移(motion):跑走散步飞过来回去拉来3.7创造(creation):制作画炒写创建修筑3.8接触(contact):触摸撞击打中系挖掘3.9领属转移(possession):买卖赠送给转让借3.10信息交流(communication):告诉询问请求转达叮嘱说3.11比赛(competition):竞赛赛跑打仗摔跤辩论3.12社会活动(socialbehavior):改革调价开会联欢3.13其他行为(otherevent)(4)副词分类1程度(degree):很挺太顶更最极十分非常稍稍微略微2范围(range):都也总共一共总共统统只就光仅仅仅3时间(time):正刚刚就先曾经已经终于立刻马上永远4处所(location):到处处处暗中当场当面5频度(frequency):常常常时常又再还重新重6方式(manner):渐渐逐渐挨次挨个逆时针慢慢7否定(negation):不没有没未莫休勿别8语气(modality):却可倒竟也就偏偏偏都简直索性幸亏难道到底究竟也许或许大约大概(5)数词分类1基数(cardinalnumber)1.1系数:一二两三五六七八九几1.2位数:十、百、千、万、亿、万万1.3概数:多半多少若干很多许多好多好几好些无数2序数(ordinalnumber):第一第二第十3数量(amount):一切许多很多不少大量部分全部所有俩2.3词语的语义属性描写分类法刻画事物固然简洁、清晰、反映了词语最基本的语义信息,但信息颗粒度较大,属于同一语义类的词语仍可能各具特点。如:表示“动态事件”的动词,其动作的发出者(主体)则可能完全不同,“唱戏”的主体是“人”,“产卵”的主体是“动物”,“抽穗”的主体是“植物”,“涨潮”的主体是“自然物”。又如“害羞、繁茂、肥沃、甘甜”虽然都是“性质”类形容词,但其所能修饰的名词性成分也是不同的:“害羞”用于指“人”,“繁茂”指“植物”,“肥沃”指“自然物”,“甘甜”指“可食物”。因此,为了进一步提高机器翻译系统或其他自然语言处理系统的性能,语义词典还要在分类的基础上,依靠属性描述来刻画每一个词语与周围名词性成分所发生的语义组合关系。3各类词库的共同字段以下说明中,左边的一列楷体汉字代表字段名,中间的一列数字表示各个字段所占的字节数。右边的词语则是对字段值的说明。词语8暂收1-4个字的词语同形2词典中同形词(即汉字相同的词)的情况是很复杂:不同词条:抄写的“抄”,抄近道的“抄”。同类同一词条的不同义项:“去北京”的“去”,“去果皮”的“去”。同音不同类:属连词的“和”与属介词的“和”是不同的词,动词的“锁”与名词的“锁”也是两个意义有联系的不同的词;属广义兼类现象。“同等”兼属区别词与副词,仅因同字为语法功能不同,两者的意义并无区别,这是狭义兼类现象。同类:和稀泥的“和”(huo4),和一盘棋的“和”(he2)。表示加在一起的“合计”(he2ji4),有磋商、盘算意思的“合计”(he2ji5)。不同音不同类:属连词的“和”(he2),与属动词的和稀泥的“和”(huo4)。在词典中,除了“同字同音同类”的情况外,上图中同形词的其他情况均作为不同记录收入词典。为了进一步区分同字同音同类的情况,专设了一个“同形”字段。对于同字、同音、同类但是应算不同词项的情况,在“同形”字段中填上字母A,B,C等。对于同字、同音、同类、同一个词的不同义项的情况,在“同形”字段中填上数字1,2,3等。为了提高同形词的处理效率,在“同形”字段中也用A,B,C等标识同字同类不同音的情况。总之,“同形”中的A,B,C等表示不同的词,数字1,2,3等表示同一个词的不同义项。当需要字母与数字并存时,则将字母置于数字之前,如A1,A2,B1,B2等。拼音24填每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中“5”表示轻声。如:“常识”的全拼音是“chang2shi2”,“尺子”的全拼音是“chi3zi5”。词类2填词语所属词类的代码。如:名词填“n”,动词填“v”,形容词填“a”。子类2填词语所属词类的子类代码。如:名词性成语填“IN”,动词性习用语填“LV”。兼类4填该词语兼属的词类代码,如:名词“锁”的兼类填“v”,动词“锁”的兼类填“n”。义项编码 2 对“同形”字段相同的词条进一步加以区分,填上不同的义项编码,如“菜做得很清淡”中的“清淡”在本字段填“1”,“生意清淡”中的“清淡”则填“2”。义项10填写该词语的简明释义,如:词典中收录了两个“天才”,为了让人更为方便地将其区分开,就分别在本字段填上“人”和“智慧”。即前一个“天才”指人,比如可以说“他是一位数学天才”,后一个“天才”指“智慧”,可以说“他在数学方面很有天才”。语义类20填写该词语的语义类别名称。意义明确的尽量填低层的小类;意义难以把握的可酌情填上层语义类。可以不止填一个类别名称,不同的名称之间用“/”隔开。如“校长”填“身份”,“刀”填“用具”,“青菜”填“植物/食物”;“是”填“静态关系”,“喜欢”填“心理活动”,“打雷”填“气象”。WORD40填该词语对应的英语译词或短语,如:“安静”在本字段填“quiet”,“脏乱”填“dirtyandmessy”。Ecat40填该词语的英语译词的词性代码,或短语组成结构,如:“安静”在本字段填“A”,“脏乱”则填“!A+C+!A”(!表示中心词)。备注20填写词语某些用法的简明示例或说明,用“~”代替该词,各示例之间用斜道“/”隔开。注:除了“语义类、义项编码、WORD、Ecat”4个字段外,上述其他字段均直接从北京大学计算语言学研究所的《现代汉语语法信息词典》中直接继承而来。4名词库字段(时间词、处所词,以及名词性的成语、习用语、简称略语等库与此相同)配价数2一价名词填“1”,二价名词填“2”,零价名词不填。名词的配价表现为支配性名词要求语义上受其支配的从属名词与之共现。要求一个从属名词与之共现,配价数为1。如“老李的女儿回来了/小坡的爸爸病了”着两句话中的“女儿、爸爸”都是一价名词。因为,从意义上看,它们在表示某事物的同时,还隐含了该事物跟另一个事物之间的某种依存关系。当它在语句中出现时,它要求支配其配价成分。这也就是说,一价名词“女儿、爸爸”不仅是句法上的中心词,而且是语义上的支点,因而在句子中不能省略。如:“老李的女儿——*老李的”、“小坡的爸爸——*小坡的”。而一般名词(零价名词)则可以省略,如:老李的拐杖——老李的小坡的书包——小坡的要求两个名词性成分与之共现,配价数为2。如:“这件事老李有意见/他对刘刚一直没有好感”,这里的“意见、好感”都是二价名词。从语义上看,“意见、好感”一般是某人针对某人或某物的,涉及到两个个体。因而,在句子中要求两个配项与之共现,如果其中一个配项不出现,那么句子的语义就不完整,如:“老李有意见/他一直没有好感”。汉语中绝大多数名词并不一定要求有任何配项与之共现,如“天下雨了/桌子坏了”,“天”和“桌子”就都是零价名词,它们在本字段均不填。参照体20填写一价和二价名词的参照体的语义类名称。零价名词在本字段不填。如“女儿”、“看法”的本字段填“人类”,“桌子”则不填。对象20填写二价名词的对象的语义类名称。如“意见”在本字段填上“人类/事件”。一价和零价名词本字段不填。在句子中,名词的对象一般可以用“对、对于”等介词标记出来,如“群众对他的意见很大”中的“他”。直接上位20填写该名词的直接上位概念。如“雨鞋”、“皮鞋”在该字段均填“鞋”;“轿车”在本字段填“车”。5动词库字段(动词性的成语、习用语、简称略语等库与此相同)配价数2一价动词填“1”,二价动词填“2”,三价动词填“3”。本词典引进“配价”概念来说明一个动词能支配多少名词性成分。从理论上说,在一个句子中,直接受谓语动词支配的名词性成分不得超过3个:主语、宾语1、宾语2。动词能支配几个名词性成分,它就是几价动词。如果能支配1个名词性成分,则为一价动词(如“奔跑、出差、劳动、前进、病、失败”等);如果能支配两个名词性成分,则为二价动词(如“搬、穿、发明、制定、听见、遗失、是”等);如果能支配3个名词性成分,则为三价动词(如“给、给予、问、回答、借、送给”等)。配价是从静态的角度依据动词的词汇意义确定的,因此,就某个具体的动词而言,其配价是相对稳定的。此外,动词同配价成分之间的组合应该是有意义的、可理解的。在“他跑了一身汗”这个句子中,“跑汗”是无意义的。因而就可以判断出“汗”不是“跑”的配价成分,“跑”(义为“快速前进”)的配价成分只是主语“他”,是1价动词。因此,“跑”的本字段填“1”。需要特别说明的是,汉语中有些动词可以看作没有配价成分,像“例如、可见、天亮”。它们的配价数定为0,本字段不填。主体20填写动词的主体所属的语义类名称。如“逃跑”在本字段填“人类/动物”,“刮倒”填“气象”,“死”填“生物”。主体(agent)是动词的配价成分承担的一种语义角色,指动作行为(或状态)或自然现象的发出者。如:“敌人逃跑了/风刮倒了大树”中的“敌人、风”。在句子中,主体一般占据主语位置,但有时也可处于宾语位置,如“死了一只兔子”值的“兔子”。为了尽可能详细地描述主体的语义限制,本字段还引入了以下几种符号​[3]​:“/”表示“或”,如“叙述”的主体填“人类/作品”;“~”表示“非”,如“越冬”的主体填“生物~人类”;“”(双引号)表示具体词,引号中的“*”表示任意汉字串,如“晒”在本字段填“太阳”,“吹拂”填“*风”。客体20填写二价和三价动词的客体语义类名称。如“擦”在本字段填“人为事物/构件”,“画”填“作品”,“丧失”填“抽象事物”。客体(object)也是动词的配价成分承担的一种语义角色,指动作行为或变化所涉及的直接对象。如“擦玻璃/画了一幅画儿”中的“玻璃、画”。在句子中,客体一般占据宾语位置,但在受事主语句或被动句中则处于主语位置,如“玻璃被擦过了/画儿画好了”。与事20填写三价动词的与事所属的语义类名称。如“给”在本字段填“人类”,“送”也填“人类”。与事,指事件中有利害关系的间接客体,如受益者或受损者。如“给他一本书/送我30元钱”中的“他、我”。在句子中,邻体一般占据间接宾语位置,但在主谓谓语句、受事主语句或被动句中则处于一般宾语位置,如“那本书小李给他了/那本书给他了/那本书叫小李给他了”。6形容词库字段(状态词、区别词,以及形容词性的成语、习用语、简称略语等库与此相同)配价数2一价形容词填“1”,二价形容词填“2”。在句子中,只要求一个名词性成分与之共现,配价数为1,如“大雨/花很红”中的“大、红”;要求两个名词性成分与之共现,配价数为2,如“小李对人很热情/他对象棋的兴趣淡薄”中的“热情、淡薄”。汉语形容词绝大多数都是一价的,二价形容词不多,在词义上主要是表示态度、效用及熟悉程度的,如“淡薄、淡漠、冷淡、恭敬、亲热、忠诚、耳熟、陌生、熟、有用、无益、面熟、友好、亲密、忠实”等。主体20填写形容词的主体的语义类名称。如“红(一种颜色)”在本字段填“具体事物”,“友好(亲近和睦)”填“人类/动物”。主体指性状的承当者,如:“花儿红了/她对兔子很友好”中的“花、她、兔子”。在句子中,主体一般占据主语位置。一价形容词的主体也可以处于偏正结构的中心语位置,如“红花儿/大雨”中的“花儿、雨”。对象20填写二价形容词的关涉对象的语义类名称。如“眼熟”在本字段填“具体事物”,“有利”填“人类/抽象事物”。在句子中,形容词的对象一般可以用“对、对于”等介词标记出来,如“这份合同对甲方有利/(对)这个人我有点眼熟”。7数词、副词库项目同§3“各类词库的共同字段”。参考文献参考文献[1]王惠,詹卫东,刘群.“现代汉语语义词典的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 与概要”.《1998中文信息处理国际会议论文集》.清华大学出版社.1998.pp361-367.[2]俞士汶,朱学锋,王惠.“《现代汉语语法信息词典》的新进展”.《中文信息学报》2001年第1期.[3]俞士汶,朱学锋,王惠,张化瑞等.《现代汉语语法信息词典详解(第2版)》.清华大学出版社.2002[4]ChristianeFellbaum.ed..WordNet:anelectroniclexicaldatabase.Mass:MITPress.1998[5]于江生,俞士汶.“CCD的结构与设计思想”.《中文信息学报》.2002,16(4).pp12-20.[6]董振东,董强.“知网”(Hownet).http://www.keenage.com(​http:​/​​/​www.hownet.com​).[7]陆俭明.《现代汉语配价语法研究序》,北京大学出版社1995.pp1-7.[8]袁毓林.“一价名词的认知研究”,《中国语文》1994第4期[9]袁毓林.“现代汉语二价名词研究”.《现代汉语配价语法研究》,北京大学出版社1995.pp29-58..附录:填写样例(1)名词库词语词类同形义项编码语义类配价数参照体对象WORD老虎n动物0tiger腿n11生物构件1人/动物leg腿n22非生物构件1用具Leg意见n11认知2人实体/抽象物view意见n22认知2人人/事件objection(2)动词库词语词类同形语义类配价数主体客体与事WORD赠送v领属转移3人实体人present告诉v信息交流3人信息人tell发芽v变化1植物sprout修建v2创造2人建筑物build(3)形容词库词语词类同形义项编码语义类配价数主体对象WORD大a1外形1具体物big大a2性质1“雨”/“雪”heavy拥挤a境况1空间/建筑物crowded热情a关系2人人warm总库名词库动词库形容词库贷次AdverbDatabaseNumeralDatabase精选文档精选文档精选文档^1本研究得到国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4)与“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(项目号:G1998030507-1)的支持。^2它们均是从北京大学计算语言学研究所开发的《现代汉语语法信息词典》(2002版)[3]中直接继承而来。这不仅保证了语义词典收词的规范性、注音与词性标注的准确性,而且也使得它可通过“词语、词类、同形”3个关键字段与语法信息词典进行链接,相互配合使用,从而使计算机获得更完备的语法、语义信息。^3这4种符号的定义同样适用于本词典动词库中的“客体、与事”字段以及名词库和形容词库中的“参照体”、“对象”及“主体”等字段。
本文档为【现代汉语语义词典规范】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
爱赢
公司经营范围:网络软件设计、制作、图文设计、影视制作(编辑)
格式:doc
大小:191KB
软件:Word
页数:0
分类:企业经营
上传时间:2021-02-24
浏览量:61