自然语言处理和信息抽取

自然语言处理和信息抽取第二讲自然语言处理和信息抽取赵军（jzhao@nlpr.ia.ac.cn）共同讲者：刘康、韩先培、周光有、蔡黎中国科学院自动化研究所模式识别国家重点实验室中国计算机学会《学科前沿讲习班》第21期面向互联网的自然语言处理技术——理论、方法与应用问题研究引言(1/3)50-60年代：自然语言处理研究领域是作为人工智能的应用发展起来的最早的自然语言理解方面的研究工作是机器翻译，20世纪60年代，国外对机器翻译曾有大规模的研究工作普遍采用基于规则的方法，或者基于知识库的方法，在限定领域取得成功...

第二讲自然语言处理和信息抽取赵军（jzhao@nlpr.ia.ac.cn）共同讲者：刘康、韩先培、周光有、蔡黎中国科学院自动化研究所模式识别国家重点实验室中国计算机学会《学科前沿讲习班》第21期面向互联网的自然语言处理技术——理论、方法与应用问题研究引言(1/3)50-60年代：自然语言处理研究领域是作为人工智能的应用发展起来的最早的自然语言理解方面的研究工作是机器翻译，20世纪60年代，国外对机器翻译曾有大规模的研究工作普遍采用基于规则的方法，或者基于知识库的方法，在限定领域取得成功但人们低估了自然语言的复杂性，在开放领域遇到很大的困难90年代开始：随着大规模词典和真实语料库的研制，给自然语言处理领域的研究带来了巨大变化基于语料库的统计自然语言学习成为一种重要的方法自然语言处理系统面向大规模真实文本的处理，使得研制的系统开始面向实用系统并不要求能对自然语言文本进行深层理解，而是从中抽取一些有用信息，作为自然语言部分理解的一种形式——信息抽取引言(2/3)过去10年：随着互联网的普及，为自然语言处理领域提供了强有力的应用牵引和海量语言资源自然语言处理技术和信息检索技术结合，自然语言处理技术的应用领域大大扩大——问答系统等统计自然语言学习方法受限于语料库的规模，过拟合问题严重，缺乏推广能力目前：随着Web2.0的普及，网络上积累了规模巨大的UserGeneratedContent，为自然语言处理技术的发展提供了新的资源和技术创新的源泉例如Wikipedia、社区问答资源等，为建立大规模知识库奠定基础基于知识的方法在开放域自然语言处理处理任务中的应用成为可能基于知识的方法和基于统计的方法的融合受到关注引言(3/3)本课程将面向互联网应用，选取依存句法分析、信息抽取、观点挖掘和倾向性分析、问答系统等四个自然语言处理领域的研究方向，系统介绍其中的基本概念、主要方法、最新研究进展、需要解决的问题和发展趋势目标：听者能够对以上几个研究方向的基本轮廓和发展脉络有较为系统的了解主要内容第一课09:00-10:00信息抽取第二课10:20-11:30观点挖掘和倾向性分析第三课14:00-15:00问答系统第四课15:20-16:20依存句法分析第五课16:30-17:00互动课主要内容之间的关系信息抽取：以实体为中心的事实性信息的抽取观点挖掘和倾向性分析：主观性信息的抽取问答系统：信息抽取和自然语言处理技术结合的应用依存句法分析：自然语言处理关键技术第一课信息抽取中国科学院自动化研究所模式识别国家重点实验室概述引言实体识别与抽取实体消歧关系抽取问题与挑战引言互联网的迅速普及和发展信息资源极大丰富但“信息过载”问题日趋严重迫切需要快速、准确获取信息的技术手段信息抽取技术应运而生文本信息抽取自然语言文本信息抽取信息抽取与信息检索的区别(1/2)查找同“恐怖袭击”相关的文档查找同“恐怖袭击”相关的文档互联网文档集文本信息检索www.google.com.hk信息抽取与信息检索的区别(2/2)根据恐怖袭击相关的文档列出某日发生的恐怖事件根据恐怖袭击相关的文档列出某日发生的恐怖事件将恐怖袭击事件按照发生地点进行归类将恐怖袭击事件按照发生地点进行归类需要文本信息抽取技术做支撑信息抽取定义信息抽取定义(Grishman,1997)从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术Makinginformationmoremachine-readable(Wu,2010)信息抽取的目标示例2011年4月11日17点16分，日本东北部的福岛和茨城地区发生里氏7.0级强烈地震（震中北纬36.9度、东经140.7度，即福岛西南30公里左右的地方，震源深度10公里，属于浅层地震）当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸，同时造成福岛核电站出现核泄漏震后第十天，国际原子能机构对于日本政府反应迟钝进行了谴责2011年4月11日17点16分，日本东北部的福岛和茨城地区发生里氏7.0级强烈地震（震中北纬36.9度、东经140.7度，即福岛西南30公里左右的地方，震源深度10公里，属于浅层地震）当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸，同时造成福岛核电站出现核泄漏震后第十天，国际原子能机构对于日本政府反应迟钝进行了谴责浅层地震话题日本地震话题日本地震地震事件名称：日本福岛地震震级：7.0级地区：日本福岛和茨城震中：北纬36.9度，东经140.7度震源深度：10km性质：浅层地震地震事件名称：日本福岛地震震级：7.0级地区：日本福岛和茨城震中：北纬36.9度，东经140.7度震源深度：10km性质：浅层地震海啸事件名称：日本海啸时间：震后30分钟地区：日本海性质：巨型海啸海啸事件名称：日本海啸时间：震后30分钟地区：日本海性质：巨型海啸核泄漏事件名称：日本核泄漏时间：震后两天地区：福岛核电站影响范围：30平方公里相关事件：切尔诺贝利核泄漏事件名称：日本核泄漏时间：震后两天地区：福岛核电站影响范围：30平方公里相关事件：切尔诺贝利观点持有者：国际原子能机构对象：日本政府原因：福岛核泄漏倾向性：谴责观点持有者：国际原子能机构对象：日本政府原因：福岛核泄漏倾向性：谴责海啸福岛核电站国际原子能机构福岛信息抽取的历史(1/2)信息抽取的研究最早于上世纪70年代末期最早的信息抽取系统于上世纪80年代中期面世，由路透社研制的JASPER，用作向金融从业者提供结构化的金融新闻信息抽取的历史(2/2)MUC（MessageUnderstandingConferences,1987-1997）由美国国防高级研究计划委员会DARPA资助主要是英文，后两届扩展到中文任务命名实体识别，共指消解，模板关系抽取等等ACE（AutomaticContentExtraction,1999-2008）由美国国家标准与技术研究所NIST主办2009起，ACE变成了TAC（TextAnalysisConference）的一项子任务英文、中文、阿拉伯文等任务命名实体识别，关系抽取，事件抽取等等TAC-KBP(KnowledgeBasePopulation)子任务(2009-今)实体链接、属性抽取小结封闭语料开放语料：限定领域、新闻语料Web页面限定类别开放类别：有限类别的实体、关系、事件维基百科条目文本内信息抽取与真实世界关联时间评测阶段任务语料1987-1993MUC1-MUC5命名实体识别，共指消解，模板关系抽取等等限定领域文本(海军军事情报、恐怖袭击)1995-1997MUC6-MUC7模板填充、命名实体识别、共指关系确定等限定领域文本(人事职位变动、飞机失事)1999ACE-Pilot----ACE-1命名实体识别新闻语料2002ACE2命名实体识别、关系识别与描述等新闻语料2003-2007ACE2003-ACE2007命名实体识别、关系识别与描述、时间表达式识别、事件抽取等新闻语料、对话语料2009-2011TAC1-TAC3实体链接、属性抽取新闻语料、Web页面概述引言实体识别与抽取实体识别开放域实体抽取实体消歧关系抽取问题与挑战命名实体识别的任务识别出待处理文本中七类（人名、机构名、地名、时间、日期、货币和百分比）命名实体两个子任务：实体边界识别和确定实体类别2011年4月11日17点16分，日本东北部的福岛和茨城地区发生里氏7.0级强烈地震（震中北纬36.9度、东经140.7度，即福岛西南30公里左右的地方，震源深度10公里，属于浅层地震）当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸，同时造成福岛核电站出现核泄漏震后第十天，国际原子能机构对于日本政府反应迟钝进行了谴责2011年4月11日17点16分，日本东北部的福岛和茨城地区发生里氏7.0级强烈地震（震中北纬36.9度、东经140.7度，即福岛西南30公里左右的地方，震源深度10公里，属于浅层地震）当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸，同时造成福岛核电站出现核泄漏震后第十天，国际原子能机构对于日本政府反应迟钝进行了谴责命名实体识别的特点时间、日期、货币和百分比的构成有比较明显的规律，识别起来相对容易人名、地名、机构名的用字灵活，识别的难度很大内部结构复杂，形式多变对中文命名实体来说，情况尤其如此人名：杜甫、杜子美、子美、杜工部、李杜；机构名：北京百富勤投资咨询公司、北京大学附属小学、中国奥委会、北师大二附上下文密切相关不同语境下，可能具有不同的实体类型；或者在某些条件下是实体，在另外的条件下就不是实体彩霞、河南、新世界命名实体识别的方法命名实体的内部构成和外部语言环境具有一些特征无论何种方法，都在试图充分发现和利用实体所在的上下文特征和实体的内部特征考虑到每一类命名实体都具有不同的特征，不同类别的实体适合用不同的识别模型人名：用基于字的模型描述其内部构成；地名和机构名：用基于词的模型描述不同类型的外国人名用字存在较大差别，如果按照人名的用字和构成特点，把人名分成多个类别并分别利用不同模型进行识别，对于提高人名识别的正确率是非常有益的利用序列标注工具计算特征权重MEMM、HMM、CRF命名实体识别的评测国际会议：MUC、SigHAN、CoNLL、IEER和ACEMUC-6和MUC-7设立的命名实体识别专项评测大大推动了英语命名实体识别技术的发展MUC-6和MUC-7还设立了多语言实体识别评测任务MET，对日语、西班牙语、汉语等多种语言命名实体识别任务进行评测SigHAN从2003年开始举办第一届中文分词评测BAKEOFF，2006年和2008年举行的BAKEOFF-3和BAKEOFF-4设立了命名实体识别专项评测2003年和2004年举办的863计划“中文信息处理与智能人机接口技术评测”中设立了中文命名实体识别评测任务英文命名实体识别的技术水平英文：LanguageTechnologyGroupSummary开发的英语命名实体识别系统在MUC-7评测中取得第一名，其准确率和召回率分别达到95%和92%（吴友政，2006）许多英语命名实体系统已经具备了相当程度的大规模文本处理能力汉语命名实体识别的技术水平参加MET-2评测的汉语命名实体识别系统对人名、地名、机构名识别的最优性能指标（准确率，召回率）只有(66%，92%)、(89%，91%)和(89%，88%)（吴友政，2006）汉语命名实体识别的技术水平：BAKEOFF-3数据来源测试类别测试性能PRFORG-FLOC-FPER-FGPE-FMSRC（简）Closed0.88940.84200.86510.83100.85450.9009~Open0.92200.90180.91180.85900.90340.9604~LDC（简）Closed0.80260.72650.76270.65850.30460.78840.8204Open0.76160.66210.70840.52090.28570.74220.7930CITYU（繁）Closed0.91430.86760.89030.80460.92110.9087~Open0.86920.74980.80510.68010.86040.8098~数据来源简繁体类别训练集规模测试集规模MSRC简体1.3M/63K（词/词次）100K/13K（词/词次）LDC简体632K（词）61K（词）CITYU繁体1.6M/76K（词/词次）220K/23K（词/词次）(Levow,2006)汉语命名实体识别的技术水平：863数据来源测试类别测试性能ORGLOCPERPRFPRFPRFSXU（简）开放.6464.5741.6081.8702.7843.8251.8138.8847.8478CITYU（繁）开放.3986.2532.3097.6839.7004.6921.3986.2532.3097数据来源简繁体类别训练集规模（词/词次）测试集规模（字）SXU简体NONE约400KCITYU繁体NONE约400K从评测结果看汉语命名实体识别的技术水平在BAKEOFF-3MSRC语料和BAKEOFF-3CITYU语料上的评测结果要好于BAKEOFF-3LDC语料上的评测结果以及863语料上的评测结果其中一个很重要原因是：BAKEOFF-3MSRC和CITYU评测提供了相当规模的训练集，而BAKEOFF-3LDC只提供了小规模的训练集，而863评测根本不提供训练集因为训练集和测试集在题材和体裁方面比较类似，可能使得各个系统在BAKEOFF-3MSRC语料和BAKEOFF-3CITYU语料上的评测性能较高在真实的应用环境中，命名实体识别的性能会大打折扣小结受限于训练语料规模，系统的自适应能力不强网页信息：不规范、存在很多噪音，有些根本就不构成自然语言句子，因此通常的命名实体识别模型所依赖的上下文特征发生了明显变化，使得识别性能剧烈下降类别数限定，不满足实际的应用摩托罗拉V8088折叠手机、第6届苏迪曼杯羽毛球混合团体赛、胆结石腹腔镜手术等需要开放域实体抽取实体类型更多、更细，而且有些实体类别是未知、或者是随时间演化的概述引言实体识别与抽取实体识别开放域实体抽取实体消歧关系抽取问题与挑战开放域实体抽取不限定实体类别不限定目标文本任务：给定某一类别的实体实例，从网页中抽取同一类别其他实体实例给出<中国，美国，俄罗斯>（称为“种子”）找出其他国家<德国，英国，法国……>InputOutput开放域实体抽取的主要方法基本思路种子词与目标词在网页中具有相同或者类似的上下文网页结构上下文Step1：种子词模板Step2：模板更多同类实体处理实例扩展问题的主流框架利用不同数据源（例如查询日志、网页文档、知识库文档等）的不同特点，设计方法种子候选结果抽取器(抽取模板)打分器(计算候选置信度)开放域实体抽取的主要方法: Query Log (PascaCIKM 2007)通过分析种子实例在查询日志中的上下文学得模板，再利用模板找到同类别的实例联想笔记本如何苹果笔记本如何戴尔笔记本如何构造候选与种子上下文向量，计算相似度开放域实体抽取的主要方法:WebPage(WangICDM2007)(1/2)Motivation处理列表型网页在列表中，种子与目标实体具有相同的网页结构开放域实体抽取的主要方法: Web Page (Wang ICDM 2007) (2/2)爬取模块（Fetcher）把种子送到搜索引擎，把返回的前100个网页抓取下来作为语料抽取模块（Extractor）针对单个网页学习模板，再使用模板抽取候选实例排序模块（Ranker）利用种子、网页、模板、候选构造一个图，综合考虑网页和模板的质量，使用RandomWalk算法为候选打分并排序一个网页包含的高质量模板越多，则该网页质量越高（反之亦然）一个模板抽取出的正确实例越多，则该模板的质量越高（反之亦然）开放域实体抽取的主要方法:融合多个数据源(PennacchiottiEMNLP2009)针对不同数据源，选取不同特征分别进行实例扩展，对结果进行融合6亿个网页1年的查询日志Wikipedia针对不同数据源选取不同的模板和特征使用不同特征计算候选的置信度结果融合评价指标与技术水平针对实例扩展问题，目前缺少公认的评测，研究者在自己构建的数据上进行测试评价方法：以平均准确度MAP为主，召回无法评价，覆盖度替代MAP因为系统输出是一个rankedlist，单纯考察准确率无法体现出rank的作用采用TREC中常用的MAP（平均正确率均值）每个类别做N次实验，每次都随机选取种子，对其求平均评价指标与技术水平(1/2)Wang2007在12个自制数据集的结果，取前100个网页作为语料小结针对不同数据源的特点设计方法，其针对性、灵活性很强方法一般分为模板抽取和实例候选置信度计算两个模块，两部分迭代进行，相互依赖以无监督的方法为主缺少公认的数据集或相关评测概述引言实体识别与抽取实体消歧实体消歧任务定义基于聚类的实体消歧基于链接的实体消歧关系抽取问题与挑战实体消歧定义命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体，例如，给定如下的四个实体指称项“MichaelJordan”MJ1:MichaelJordanisaresearcherinmachinelearning.MJ2:LearninginGraphicalModels:MichaelJordanMJ3:M.JordanwinsNBAMVP.MJ4:MichaelJordanplaysbasketballinChicagoBulls.确定一个实体指称项所指向的真实世界实体，这就是命名实体消歧实体消歧分类基于聚类的实体消歧把所有实体指称项按其指向的目标实体进行聚类每一个实体指称项对应到一个单独的类别MJ1:MichaelJordanisaresearcherinmachinelearning.MJ2:ResearchinGraphicalModels:MichaelJordanMJ3:M.JordanwinsNBAMVP.MJ4:MichaelJordanplaysbasketballinChicagoBulls基于实体链接的实体消歧将实体指称项与目标实体列表中的对应实体进行链接实现消歧MJ4:MichaelJordanplaysbasketballinChicagoBulls概述引言实体识别与抽取实体消歧实体消歧任务定义基于聚类的实体消歧基于链接的实体消歧关系抽取问题与挑战基于聚类的实体消歧基本思路同一指称项具有近似的上下文利用聚类算法进行消歧核心问题：选取何种特征对于指称项进行表示词袋模型(Baggaetal.,COLING,1998)语义特征(Pedersonetal.,CLITP,2005)社会化网络(Bekkermanetal.,WWW,2005)维基百科的知识(HanandZhao,CIKM,2009)多源异构语义知识融合(HanandZhao,ACL,2010)基于聚类的实体消歧:词袋模型(Baggaetal.COLING1998)利用待消歧实体周边的词来构造向量利用向量空间模型来计算两个实体指称项的相似度，进行聚类MJ1:MichaelJordanisaresearcherinmachinelearning.MJ1:MichaelJordanplaysbasketballinChicagoBullsMJ1researchermachinelearningMJ4playsbasketballChicagoBulls基于聚类的实体消歧:语义特征(Pedersonetal.CLITP2005)词袋模型，没有考虑词的语义信息利用SVD分解挖掘词的语义信息利用词袋和浅层语义特征，共同来表示指称项，利用余弦相似度来计算两个指称项的相似度基于聚类的实体消歧:社会化网络(Bekkermanetal.WWW2005)不同的人具有不同的社会关系MJ（BasketBall）:Pippen,Buckley,Ewing,Kobe…MJ（MachineLearning）:Liang,Mackey,Wauthier…MJ,Pippen,Buckley,Ewing,Kobe等的社会化关联信息所表现出来的网页链接特征，对网页进行聚类，从而实现网页内的人名聚类消歧。基于聚类的实体消歧:Wikipedia(HanCIKM2009)(1/3)Wikipedia中相关实体具有链接关系这种链接关系反映条目之间的语义相关度GlobalizationBankCapitalismDependencytheoryIllegalimmigrationTradeMasterCardOvernightrateWorldBankMergers&AquisitionsAssetsinflationMixedeconomyDebitcardFinancialmarketAutomatedtellermachineHumanmigrationEuropeanUnionCorporationAccentureDivisionoflabourImperialismColonization基于聚类的实体消歧:Wikipedia(HanCIKM2009)(2/3)用实体上下文的维基条目对于实体进行向量表示MJ1:MichaelJordanisaResearcherinmachinelearning.MJ2:ResearchinGraphicalModels:MichaelJordan利用维基条目之间的相关度计算指称项之间的相似度（解决数据稀疏问题）MJ1MJ2Researcher(0.42)Machinelearning(0.54)Graphicmodel(0.51)Research(0.47)MJ1ResearcherMachinelearningMJ2ResearchGraphicmodel实验比较(HanCIKM2009)(3/3)使用WePS数据集测试使用结构化关联语义核的实体相似度能够提升10.7%的消歧性能基于聚类的实体消歧:多源异构知识(HanACL2010)(1/3)仅仅考虑Wikipedia一种知识源，覆盖度有限多源异构知识的挖掘与集成知识源中存在大量的多源异构知识挖掘和集成多源异构知识可以提高实体消歧的性能Wikipedia用于捕捉概念之间的语义关联WordNet用于捕捉词语之间的语言学关联Web网页库用于捕捉命名实体之间的社会化关联基于聚类的实体消歧:多源异构知识(HanACL2010)(2/3)多源异构知识的表示框架如何处理知识源的多源异构性提出了统一的语义知识表示模型结构化知识源中的显式语义知识都可以表示成概念之间的语义关联使用基于图的表示模型有效表示语义图基于聚类的实体消歧:多源异构知识(HanACL2010)(3/3)实验比较使用WePS数据集测试使用多源知识能够有效提高消歧的准确度基于聚类的实体消歧：评测(1/2)WePS：WebPeopleSearchEvaluationWePS1是SEMEVAL2007的子任务WePS2是WWW的一个workshop任务：Web环境中的人名消歧，即给定一个包含某个歧义人名的网页集合，按照网页中人名指称项所指向的人物概念来对网页进行聚类，以及抽取一个网页中关于某个人的特定属性来辅助进行人名消歧评测方法基于聚类的实体消歧：评测(2/2)WePS1WePS2小结主要研究集中在实体指称项的语义表示已有工作大多是通过扩展特征，增加更多的知识来提高消歧精度挑战消歧目标难以确定缺乏实体的显式表示概述引言实体识别与抽取实体消歧实体消歧任务定义基于聚类的实体消歧基于链接的实体消歧关系抽取问题与挑战实体链接的任务任务给定实体指称项和它所在的文本，将其链接到给定知识库中的相应实体上实体链接主要步骤主要步骤候选实体的发现给定实体指称项，链接系统根据知识、规则等信息找到实体指称项的候选实体候选实体的链接系统根据指称项和候选实体之间的相似度等特征，选择实体指称项的目标实体实体指称项文本：MichaelJordanisaformerNBAplayer,activebusinessmanandmajorityowneroftheCharlotteBobcats.候选实体：MichaelJordan(basketballplayer)MichaelJordan(mycologist）MichaelJordan(footballer)MichaelB.JordanMichaelH.JordanMichael-HakimJordanMichaelJordan(Irishpolotician)…候选实体发现如何根据实体指称项找出候选实体利用Wikipedia的信息利用上下文信息利用Wikipedia信息获取候选实体利用Wikipedia中锚文本的超级链接关系MichalJordanisaformerNBAplayer利用Wikipedia中的消歧页面利用Wikipedia中的重定向页面利用上下文获取缩略语候选实体(ZhangIJCAI2011)问题缩略语在实体指称项中十分常见，据统计，在KBP2009的测试数据，在3904个实体指称项中有827个为缩略语动机缩略语指称项具有很强的歧义性，但它的全称往往是没有歧义的ABC和AmericanBroadcastingCompanyAI和ArtificialIntelligence等在实体指称项文本中，缩略语的全称出现过解决方法利用人工规则抽取实体候选候选实体链接如何进行实体链接基本方法：计算实体指称项和候选实体的相似度，选择相似度最大的候选实体单一实体链接BOW模型(HonnibalTAC2009,BikelTAC2009)加入候选实体的类别特征（Bunescuetal.,EACL2006）加入候选实体的流行度等特征（Hanetal.,ACL2011）协同实体链接利用实体之间类别的共现特征（Cucerzan,EMNLP2007）利用实体之间连接关系（Kulkarnietal.,KDD2009）利用同一篇文档中不同实体之间存在着语义关联的特征（Hanetal.,SIGIR2011）实体链接的基本方法(HonnibalTAC2009,BikelTAC2009)基于词袋子模型计算相似度将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量形式，通过计算向量间的夹角确定指称项与候选实体相似度，系统选择相似度最大的候选实体进行链接类别特征(BunescuEACL2006)动机候选实体的文本内容可能太短，会导致相似度计算的不准确加入指称项文本中的词与候选实体类别的共现特征例：除了计算待消歧文本和实体Wikipedia文本John Williams (composer)的相似度外，还考虑当前文本中的词语与Music,Art等类别的共现信息方法训练SVM分类器对候选实体进行选择训练数据由Wikipedia中的超级链接获得所采用的特征文本相似度指称项文本中词与候选实体类别的共现信息Williamshasalsocomposednumerousclassicalconcerti,andheservedastheprincipalconductoroftheBostonPopsOrchestrafrom1980to1993JohnWilliams(composer):Category={Music,Art…}JohnWilliams(wrestler):Category={Sport,…}JohnWilliams(VC):Category={Bank,…}类别：music实体流行度等特征（HanACL2011）动机传统的方法仅仅是计算实体指称项与候选实体的相似度，忽略了候选实体的背景知识与先验信息，如实体本身的流行度，实体与指称项的关系等方法考虑实体的背景知识，将实体的背景知识融入到实体链接的过程，实体的背景知识和先验信息主要有实体流行度：实体e在知识库中的概率P(e)名称的知识：指称项s指向实体e的概率P(s|e)上下文知识：实体e出现在特定上下文环境c的概率P(c|e)Duringhisstandoutcareerat,alsoactsinthemovieSpaceJam.JordanBulls协同实体链接•实体指称项与目标实体的语义相似度•目标实体之间的语义相似度协同学习策略动机同一篇文档中实体之间具有语义相关性利用Pairwise优化策略语义相关度计算的方法：利用实体类别重合度计算目标实体语义相似度（Cucerzan,EMNLP2007）利用实体之间连接关系计算目标实体语义相似度（Kulkarni,KDD2009）任意两个目标实体之间的语义相关度实体指称项到目标实体的语义相似度基于图的协同链接（HanSIGIR2011）动机Pairwise策略只考虑两两关系，结果不是全局最优的采用图方法，全局考虑目标实体之间的语义关联方法：ReferentGraph局部关系：指称项与实体之间的关系，即该指称项文本与实体文本的相似度，由传统的VSM模型得到全局关系：利用目标实体之间的链接关系计算实体之间的语义相关度实体链接评测(1/2)TAC-KBP(2009-Now)：EntityLinking任务：将文本中的目标实体链接到Wikipedia中的真实概念，达到消歧的目的评测方法：以指称项为单位计算的准确率以实体为单位计算的准确率实体链接评测(2/2)评测结果(MicroAccuracy)2009评测结果2009分实体类型结果2010评测结果2009VS.2010小结目前实体链接方法主要是如何更有效挖掘实体指称项信息，如何更准确地计算实体指称项和实体概念之间的相似度由单一实体链接向协同实体链接发展难点：未登录实体的处理概述引言实体识别与抽取实体消歧关系抽取关系抽取任务定义传统关系抽取开放域关系抽取问题与挑战关系抽取的定义AlexanderSchutz等人认为关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组Example1:比尔盖茨是微软的CEOCEO(比尔盖茨,微软)Example2:CMU坐落于匹兹堡Located-in(CMU,匹兹堡)高阶关系：MichaelJordan获得1997/98赛季的MVPAward(MichaelJordan,1997/98赛季,MVP)关系抽取分类传统关系抽取评测语料（MUC,ACE,…）专家标注语料开放域关系抽取协作式知识库(Wikipedia,DBpedia,…）半结构化，高质量网络语料海量，噪音大查询日志长度短，用户行为信息概述引言实体识别与抽取实体消歧关系抽取关系抽取任务定义传统关系抽取开放域关系抽取问题与挑战传统关系抽取任务给定实体关系类别，给定语料，抽取目标关系对评测语料（MUC,ACE,KBP）专家标注语料，语料质量高抽取的目标类别已经定义好有公认的评价方式ACE抽取的目标关系列表KBP抽取的目标关系列表(PaulMcNamee,2009)ACE(2005-2007)评测结果(http://www.nist.gov/speech/tests/ace/ace05/doc/acee05eval_official_results_20060110.htmhttp://www.nist.gov/speech/tests/ace/ace05/doc/acee05eval_official_results_20070402.htm)针对每个句子的关系识别，评测指标是F值KBP2009SlotFillingTrack评测结果(PaulMcNamee,2009)针对一个文本库的关系抽取，评测指标是SF值因为大部分slots是空的，所以non‐NIL指标反映了系统的性能传统关系抽取方法(1/4)目前主要采用统计机器学习的方法，将关系实例转换成高维空间中的特征向量或直接用离散结构来表示，在标注语料库上训练生成分类模型，然后再识别实体间关系基于特征向量方法：最大熵模型(Kambhatla2004)和支持向量机(Zhaoetal.,2005；Zhouetal.,2005;Jiangetal.,2007)等基于核函数的方法：浅层树核（Zelenkoetal.,2003)、依存树核（Culottaetal.,2004)、最短依存树核（Bunescuetal.,2005)、卷积树核（Zhangetal.,2006；Zhouetal.,2007）传统关系抽取方法(2/4)基于特征向量方法:主要问题：如何获取各种有效的词法、句法、语义等特征，并把它们有效地集成起来，从而产生描述实体语义关系的各种局部特征和简单的全局特征特征选取：从自由文本及其句法结构中抽取出各种表面特征以及结构化特征实体词汇及其上下文特征实体类型及其组合特征实体参照方式交叠特征基本短语块特征句法树特征传统关系抽取方法(3/4)基于核函数方法:主要问题：如何有效挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度卷积树核：用两个句法树之间的公共子树的数目来衡量它们之间的相似度标准的卷积树核(CTK)在计算两棵子树的相似度时，只考虑子树本身，不考虑子树的上下文信息上下文相关卷积树核函数(CS-CTK)在计算子树相似度量，同时考虑子树的祖先信息，如子树根结点的父结点、祖父结点信息，并对不同祖先的子树相似度加权平均传统关系抽取方法(4/4)基于特征向量方法vs.基于核函数方法基于特征向量方法基于核函数方法优点简单实用计算速度较快能够有效挖掘结构化信息缺点难以进一步挖掘有效的平面特征，性能很难进一步提高句法分析的错误引入了噪声，同时由于树核的计算速度非常慢，很难开发实用系统小结受限于训练语料规模关系类别数限定，在实际应用中具有局限性需要开放域关系抽取关系类型更多语料规模不受限抽取实体类型也更丰富概述引言实体识别与抽取实体消歧关系抽取关系抽取任务定义传统关系抽取开放域关系抽取问题与挑战开放域关系抽取特点不限定关系类别不限定目标文本WebPageWikipediaQueryLog难点问题如何获取训练语料如何获取实体关系类别如何针对不同类型目标文本抽取关系开放域关系抽取:WebPage(BankoIJCAI2007)(1/2)TextRunner：利用宾州树库产生训练语料利用宾州树库和shallowparser产生训练语料，训练分类器用以对网络上的语料做浅层关系提取利用搜索引擎返回用户输入论元相关的句子用shallowparser和分类器抽取出句子中和输入相关的三元组InputOutputTextRunner开放域关系抽取:WebPage(BankoIJCAI2007)(2/2)利用简单的启发式规则，在宾州树库上产生训练语料，提取一些浅层句法特征，训练分类器，用来判断一个元组是否构成关系在网络语料上，找到候选句子，提取浅层句法特征，利用分类器，判断抽取的关系对是否“可信”利用网络海量语料的冗余信息，对可信的关系对，进行评估Self-SupervisedLearnerSingle-PassExtractorRedundancyBasedAssessor开放域关系抽取:Wikipedia(WuCIKM2007)(1/2)任务：在Wikipedia文本中抽取关系（属性）信息难点无法确定关系类别无法获取训练语料方法在Infobox抽取关系信息在Wikipedia条目文本中进行回标，产生训练语料Wu'sExtractorInputOutput开放域关系抽取:Wikipedia(WuCIKM2007)(2/2)ItscountyseatisClearfield.Asof2005,thepopulationdensitywas28.2/km².ClearfieldCountywascreatedon1804frompartsofHuntingdonandLycomingCountiesbutwasadministeredaspartofCentreCountyuntil1812.2,972km²(1,147mi²)ofitislandand17km²(7mi²)ofit(0.56%)iswater.开放域关系抽取:从QueryLog中抽取关系类别(PascaWWW2007)利用QueryLog中实体、属性和关系词的共现信息联想笔记本如何苹果笔记本如何戴尔笔记本售后如何联想笔记本售后服务点上海哪里有联想CEO……Input：目标类别的代表性实体，例如{联想，苹果，戴尔}for电脑厂商Output：排序后的目标类别的属性列表{笔记本，售后，ceo，…}for电脑厂商小结由识别到抽取规范文本有噪音、有冗余的海量网络数据限定类别开放类别难点：关系类别缺乏体系结构概述引言实体识别与抽取实体消歧关系抽取问题与挑战问题与挑战(1/2)封闭走向开放训练语料限制传统信息抽取的发展大规模网络信息不仅提供丰富的语料资源，同时提供了大量的抽取目标信息抽取与识别相结合更鲁棒的自然语言理解技术句法分析技术实体识别技术问题与挑战(2/2)大规模信息抽取海量、分布式深层次的挖掘信息背后的语义信息不仅仅是抽取更需要理解将信息与客观世界的真实目标相联系结合知识库统计+约束信息抽取评测MUChttp://www.itl.nist.gov/iaui/894.02/related_projects/muc/ACEhttp://www.itl.nist.gov/iad/894.01/tests/ace/TAChttp://www.nist.gov/tac/CONLLhttp://www.cnts.ua.ac.be/conll/Sighanhttp://www.sighan.org/信息抽取资源UnsupervisedInformationExtractionSNOWBALL[Agichtein&GravanoICDL00]MULDER[Kwoketal.TOIS01]AskMSR[Brilletal.EMNLP02]OntologyDrivenInformationExtractionSemTagandSeeker[DillWWW03]PANKOW[CimianoWWW05]OntoSyphon[McDowell&CafarellaISWC06]OtherWikipediaSystemsYago[Suchaneketal.WWW07]DBpedia[Auer&LehmannESWC07]WikipediaReputationSystem[Adler&AlfaroWWW07]参考文献Bagga,A.&Baldwin,B.1998.Entity-basedcross-documentcoreferencingusingthevectorspacemodel.Proceedingsofthe17thinternationalconferenceonComputationallinguistics-Volume1,pp.79-85.M.Banko,M.Cafarella,S.Soderland,M.Broadhead,andO.Etzioni.Openinformationextractionfromtheweb.InIJCAI,2007.Bekkerman,R.&McCallum,A.2005.Disambiguatingwebappearancesofpeopleinasocialnetwork.Proceedingsofthe14thinternationalconferenceonWorldWideWeb,pp.463-470.D.Bikeletal.EntityLinkingandSlotFillingthroughStatisticalProcessingandInferenceRules.InProceedingofTAC.2009.R.BunescuandM.Pasca.UsingEncyclopedicKnowledgeforNamedEntityDisambiguation.InProceedingofEACL.2006.S.Cucerzan.Large-ScaleNamedEntityDisambiguationBasedonWikipediaData.InProceedingofEMNLP.2007.GuoDongZhou,JianSu,JieZhang,andMinZhang.2005.Exploringvariousknowledgeinrelationextraction.InProceedingsofACL.参考文献S.Kulkarnietal.CollectiveAnnotationofWikipediaEntitiesinWebText.InProceedingofKDD.2009.Han,X.&Zhao,J.2009.NamedentitydisambiguationbyleveragingWikipediasemanticknowledge.Proceedingofthe18thACMconferenceonInformationandknowledgemanagement,pp.215-224.Han,X.&Zhao,J.2010.StructuralSemanticRelatedness:AKnowledge-BasedMethodtoNamedEntityDisambiguation.ProceedingofACL,pp.50-59.XP.HanandL.Sun.AGenerativeEntity-MentionModelforLinkingEntitieswithKnowledgeBase.InProceedingofACL.2011.XP.Hanetal.CollectiveEntityLinkinginWebText:AGraph-BasedMethod.InProceedingofSIGIR.2011.M.HonnibalandR.Dale.DAMSEL:TheDSTO/MacquarieSystemforEntity-Linking.InProceedingofTAC.2009.Gina-AnneLevow.TheThirdInternationalChineseLanguageProcessingBackoff:WordSegmentationandNameEntityRecognition[C].ProceedingsoftheFifthSigHANWorkshoponChineseLanguageProcessing,Sydney:AssociationforComputationalLinguistics,2006:108-117.参考文献Medelyan,O.,Witten,I.H.andMilne,D.(2008)TopicIndexingwithWikipedia.InProceedingsoftheAAAI2008WorkshoponWikipediaandArtificialIntelligence(WIKIAI2008),Chicago,IL.Mihalcea,R.andCsomai,A.(2007)Wikify!:linkingdocumentstoencyclopedicknowledge.InProceedingsofthe16thACMConferenceonInformationandKnowledgemanagement(CIKM’07),Lisbon,Portugal,pp.233-242.Milne,D.andWitten,I.(2008)LearningtolinkwithWikipedia.InProceedingsofthe16thACMConferenceonInformationandKnowledgemanagement(CIKM’08),NapaValley,California,USApp519-529.Pedersen,T.,Purandare,A.&Kulkarni,A.2005.Namediscriminationbyclusteringsimilarcontexts.ComputationalLinguisticsandIntelligentTextProcessing,pp.226-237.YouzhengWu,JunZhao,XuBo，ChineseNamedEntityRecognitionModelBasedonMultipleFeatures.In:ProceedingsoftheJointConferenceofHumanLanguageTechnologyandEmpiricalMethodsinNaturalLanguageProcessing(HLT/EMNLP2005),Vancouver,2005:427~434F.WuandD.Weld.AutonomouslysemantifyingWikipedia.InCIKM,2007.F.WuandD.Weld.OpeninformationextractionusingWikipedia.InACL,2010.参考文献ZHAOJun,LIUFeifan,ProductNamedEntityRecognitioninChineseTexts,InternationalJournalofLanguageResourceandEvaluation(LRE),Vol.42No.2132-152,2008(SCI).W.Zhangetal.EntityLinkingwithEffectiveAcronymExpansion,InstanceSelectionandTopicModeling.InProceedingofIJCAI.2011MinZhang,JieZhang,andJianSu.2006a.Exploringsyntacticfeaturesforrelationextractionusingaconvolutiontreekernel.InProceedingsofHLT/NAACLNIST2005.AutomaticContentExtractionEvaluationOfficialResults[2007-09-28].http://www.nist.gov/speech/tests/ace/ace05/doc/acee05eval_official_results_20060110.htmNIST2007.AutomaticContentExtractionEvaluationOfficialResults[2007-09-28].http://www.nist.gov/speech/tests/ace/ace05/doc/acee05eval_official_results_20070402.htmPaulMcNamee,OverviewoftheTAC2009KnowledgeBasePopulationTrack,InProceedingsofTACworkshop,2009.863计划中文信息处理与智能人机接口技术评测组.2004年度863计划中文信息处理与智能人机交互技术评测:命名实体评测结果报告 [R].北

                    本文档为【自然语言处理和信息抽取】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

自然语言处理和信息抽取

你可能还喜欢