首页 专家研究领域自动识别研究

专家研究领域自动识别研究

举报
开通vip

专家研究领域自动识别研究专家研究领域自动识别研究 [摘要] 专家检索与专长识别是近年来信息检索领域的一个研究热点。本文借鉴文本自动分类思想,基于文档权重归并法,采用N元语言模型,设计了一个专家领域识别实验系统;并以“武汉大学”为例对专家研究领域自动识别的效果进行了初步评测。实验结果表明该系统对专家研究领域的自动识别具有很高的查准率。 [关键词] 专家研究领域识别 专家检索 文本分类 [分类号] TP393 The Study of Expert Research Field Automatic Recognition (C...

专家研究领域自动识别研究
专家研究领域自动识别研究 [摘要] 专家检索与专长识别是近年来信息检索领域的一个研究热点。本文借鉴文本自动分类思想,基于文档权重归并法,采用N元语言模型,设计了一个专家领域识别实验系统;并以“武汉大学”为例对专家研究领域自动识别的效果进行了初步评测。实验结果表明该系统对专家研究领域的自动识别具有很高的查准率。 [关键词] 专家研究领域识别 专家检索 文本分类 [分类号] TP393 The Study of Expert Research Field Automatic Recognition (Center for Studies of Information Resources, Wuhan University, Wuhan 430072) [Abstract] Expert Retrieval and Expertise Recognition is the current hot research area in information retrieval. Based on document–weight combining method, this paper uses N-gram language model and designs an Expert Research Field Recognition System. Taking Wuhan University as a preliminary evaluation example, we found that the system is highly effective in the Expert Research Field Recognition. [Keywords] Expert Research Field Recognition, Expert Search, Text Classification 1 引言 对于知识创新,单枪匹马的时代己经让位于团队合作的时代[1]。越来越多的变革创新和现实探求更加依赖众人合作的力量。对于每个研究人员来说,在进行研究之前,知道自己的研究领域有哪些专家,了解这些专家有哪些专长并分析这些专家的专长所涉及的领域,站在“巨人”的肩膀上去开拓创新,就显得十分必要。而这些问题的解决,在信息检索领域,基本属于专家检索与专家专长识别的研究范畴。 所谓专家检索,是指利用组织内外能够表征专家专长的各种文档和资源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表的过程[2],而专家专长识别则是指对专家所具有的技能或知识的挖掘过程。本文所谓的专家领域识别区别于专家检索,本质上更像专家检索的逆过程,它旨在通过专家的研究成果,定位该专家所属的研究领域,这样不仅可以简化后期的专家专长识别的研究,而且可以与组织专家检索结合,加快人们获取信息的速度,提高工作效率,有助于建立更加完善的学习型组织。鉴于此,本文借鉴文本自动分类思想,采用文档权重归并法,利用N元语言模型,设计了专家领域自动识别实验系统,并以“武汉大学”为例进行了实验评测。 2 研究现状 专家研究领域的识别实质上是专家专长识别的一种情况,本文此处主要介绍国内外专家专长识别的相关研究。 国外专家专长识别的研究,具有代表性的成果包括EMNLP、 Net Expert等专长识别系统。Sanghee Kim的EMNLP系统主要以用户之间互相发送的Email为研究对象[3],应用自然语言处理技术对信息中的每个句子进行句法分析和标注,从有第一人称的句子中识别用户的专长。该系统使用Word Net,给每个动词赋予一个权重值,依据识别出的核心动词的权重,定义用户的专长级别,进而可以完成专长识别。Ramon的Net Expert[4]系统从共同合作发表文章库中选择用户评价比较高的文章,然后对文章进行特征提取,再用空间向量模型表示,最后,对这些术语采用TF/IDF方法进行计算,取权重较高的词作为专家的专长。 国内专家专长识别也取得一定的成果。杨彩鸽针对国内各大高校及科研管理部门对学术专家的推荐、管理和检索, 提出了一种基于Web的专家管理系统[5]。将专家的各种信息建成一个专家数据库,专家自己填写个人信息,如姓名、专长、联系方式等构成一个专家档案,并且由专家实时地上网更新自己的信息。该系统中提供的“专业成就”、“科技开发领域”、“获奖情况”等项可以从侧面反映专长程度。王霞仙、刘萍[6]做了高校专家专长档案构建的这方面研究,该文分析了高校专家专长的体现方式,将专家发表的学术 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 作为主要的专长证据,通过对专长证据的分析抽取出专家的专长,计算出专家专长的权重,对专长进行排序,并且用基于概念的方式表示专长档案。 与以上方法不同,本文采用N元语言模型,就无需进行句法分析和标注,而且也不需要进行文档特征提取,便可实现文档按领域自动分类,然后采用文档权重归并法,识别出专家研究的相关领域。 3 方法与模型 3.1 研究方法 文献[7][8]采用文档权重归并法实现了对组织专家的检索,取得了显著的效果。本文也利用这种思想,识别高校专家研究领域。本文中该方法的主要工作流程如图1所示:首先是专家研究领域(也就是学科领域)特征描述信息抽取,而学科领域的特征信息主要包含于该学科下的核心期刊中,因此笔者认为,从这些核心期刊中抽取的信息能够表示该学科的领域特征,比如核心期刊论文的关键词,只需再对其进行筛选,构成领域集;然后,对高校专家所发表的每篇论文利用语言模型,参照领域集进行索引,并对每篇文章赋予相应的权重,使得每篇文章都有明确的领域归属,最终,生成文档-领域索引文件;最后,对每位专家所发表的期刊论文,查询索引文件,按照所属领域权重进行归并,获得该专家的研究领域范畴,进而按照领域得分高低排序,返回相关领域列表。 图1 文档权重归并法工作流程 3.2 N元语言模型 统计语言模型[9]实质就是词序列 概率模型。设 是文本中的任意一个词,如果已知它在该文本中的前两个词 ,便可以用条件概率 来预测 出现的概率。这就是统计语言模型的概念。一般来说,如果用变量 代表文本中一个任意的词序列,它由顺序排列的n个词组成,即 ,则统计语言模型就是该词序列 在文本中出现的概率 。利用概率的乘积公式, 可展开为: 一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。而且,重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有 文献[10]对亚洲语言文本分类进行了研究,并针对汉语文本分类比较了LM、NB、OOP和SVM这四种模型的性能,结果LM效果最好。本文就通过构造语言模型实现文本分类。对每篇文章所属领域类别打分就采用N元语言模型,公式如下图所示,其采用开源软件Lingpipe的评分策略,详见[11]。 在专家领域识别系统中,核心工作就是文本的自动分类。传统文本分类模型[12]的一个共同之处在于先将待分类的文档由词的有序排列变成一个无序的“词袋”,也就是文本的特征提取,这尽管简化了处理过程,易于机器学习,但在变换过程中却无法避免信息的损失 ,这正是这些分类模型的准确率无法达到更高的重要原因。而本文采用N元语言模型,将文档看成词的序列(或者字的序列),这样,这些词的出现与否及其出现的次序便可以看成一种语言结合模式,这些结合模式信息完全可以用来进行文档的类目判别,也就是说不同类型的文档,它的语言结合模式可能不同。而且,运用语言模型很好地克服了特征提取过程中中文分词的困难,给后续处理带来极大的方便。 4 实验系统的设计与实现 4.1 系统设计 本文的实验系统主要分为四个模块,即数据抓取模块、索引模块、辅助模块和检索模块,各个模块的相互关系请参见系统框架图2。具体模块的介绍如下: 图2 系统框架图 (1) 数据抓取模块,即数据更新模块,由于本系统主要目标是识别专家的研究领域,所以本模块的主要功能就是定期地更新学术专家所发表的学术论文,以保持系统的时效性。作为一个检索系统,为了使用户可以从多角度进行检索,丰富了检索功能,本模块将抓取的数据保存为XML格式,格式如图3。 图3 数据保存格式 (2) 索引模块,该模块主要是对收集过来的数据进行索引,最终生成文档-领域索引文件。本实验系统主要分两阶段索引:第一阶段是用Lucene对每篇文章按不同域索引,该阶段不仅是为了丰富本系统功能,更重要的是为下一阶段做准备;第二阶段是利用N元语言模型进行文本分类,最终生成文档-领域索引文件,该阶段的框架如图4: 图4 索引框架图 其中,Lucene生成的索引文件即为第一阶段处理的结果,这样处理主要是为了使用Lucene索引时自动产生的唯一文档编号,提高系统整体索引的效率;领域分类文件就是包含各个学科领域及对该领域有详尽描述的文档作为训练集;所有XML文件即为所有专家发表的论文文献;映射表即包括领域名称和领域ID。最终生成的文档-领域索引文件,本系统以字节方式存储,这样不仅可以节省空间,而且可以提高效率,它的存储数据结构如图(5): 图(5) 索引文件结构 (3) 辅助模块,主要包括对领域分类文件、领域映射表等辅助性文件的操作接口,目标在于协调其他三个模块使其正常运行。该模块贯穿于整个系统的工作流程,为数据抓取模块提供数据抓取规则,为索引模块提供领域分类文件,为检索模块提供领域映射表等。 (4) 检索模块,该模块主要是根据用户的检索主题(专家姓名),检索出该专家所发表的所有期刊论文,然后结合文档-领域索引文件及辅助模块对检索出的文章按权重归并,最后,对生成的领域列表进行排序,将排序结果返回给用户。该模块作为检索系统的用户接口,不仅返回该专家所研究的相关领域,而且也返回其所发表的学术论文,这样可以使用户直接从该专家的研究论文去判断领域识别的正误,也极大地方便了本系统的评测。 4.2 系统实现 按照上文对系统框架的描述,本文结合“武汉大学”专家研究领域自动识别对系统进行了初步的实现和评测,该系统不仅可以识别出每位专家所属的一级学科领域,而且对“信息管理”领域专家的所属的二级学科领域也进行了初步实现。 (1)领域分类和特征描述数据抽取。本文参照CNKI的学科导航,将学科一级领域分为34个,并且将“信息管理”这个一级领域分为图书馆学、情报学和档案学这三个二级领域。领域描述数据就是一系列能够表针该领域的关键性词语。笔者认为,特定领域的核心期刊论文就是领域描述的最好数据源,由于抓取期刊全文的工作量过大,而且会给索引造成巨大麻烦,所以本系统就选择每篇论文的关键词进行抓取,然后对其去重。最终,34个一级学科领域关键词共计64758个关键词(采集日期:2009年6月10日),其中,“信息管理”领域关键词即为图书馆学、情报学和档案学这三个二级领域描述关键词之和。 (2)高校专家文档集构建,即抓取高校专家所发表的论文,以xml格式存储,构成初始文档集。笔者从学术期刊网上以作者工作单位为“武汉大学”,时间从1990至今进行搜索,并用特定的抓取程序进行抓取,最终获得52140篇文章(采集日期:2009年6月26日)。 (3)数据集索引。第一阶段采用Lucene对52140篇文档进行索引,Lucene详细信息可参见[13],由于文档以xml格式存储,所以本系统首先采用JDom[14]对xml文档进行解析,然后结合Lucene对论文的标题、作者、期刊、日期、关键词和摘要按不同的域索引。第二阶段在对开源软件Lingpipe的二次开发的基础上,利用Lucene索引的结果和辅助文档构建N元语言模型,生成文档_领域索引文件。Lingpipe的详细介绍及使用请参见[15]。根据前人对N元语言模型在亚洲语言文本分类方面所做的研究[16],N=6时对汉字处理效果最好。所以本系统的索引实质也就采用的是6元语言模型。 (4)用户检索接口实现。本系统是基于web的检索系统,采用jsp+HTML实现用户接口界面,用户可以方便的通过浏览器进行检索访问。依据用户提交的主题词(专家姓名),系统返回领域列表和相关论文信息。为了进一步提高专家领域识别的准确率,本系统还设计了反馈功能,用户可以通过该接口对系统返回的结果提供建议,据此,系统通过学习对结果进行调整和优化。系统运行界面如图(6): 图(6) 系统运行界面 5 实验系统测评 系统评价可以初步地反应系统检索效果的优劣。考虑到专家领域识别系统的特殊性,以及系统的核心目标,笔者就主要从一级领域和特定的二级领域两方面对其查准率进行评测。为了简化本次评测,假设相对本系统的34个一级领域及3个二级领域的每位专家仅有一个最核心的研究领域。本文采用P(N)来描述查准率,其中N表示第N个系统返回的检索结果与主题相关,例如P(N=1)表示领域列表返回的第一条 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 与检索主题相关的概率。为了全面的对系统进行评价,笔者从武汉大学6个学部中共选择50名专家进行一级领域测试,从图书、情报和档案各选5名专家进行二级领域测试。本文主要测试并统计了N=1、N=2和N=3这三种情况,统计结果表(1): 表(1) 评测统计结果 参数 指标 N=1 N=2 N=3 一级 领域 相关结果数 40 9 1 查准率 0.800 0.180 0.020 二级 领域 相关结果数 9 3 3 查准率 0.600 0.200 0.200 结果表明,对于一级领域,系统返回的领域列表中第一项有80%的可能性满足用户的需求,前两项的查准率高达98%,前三项基本可以涵盖检索专家的研究领域。但对于二级领域,结果区分度就不是很明显,这可能主要是由于学科相近所致。 据此,笔者再对一级领域进一步分析了N等于2和3的原因及特点。系统返回结果中的百分数表示该检索主题(领域专家)属于该研究领域的可能性,统计结果发现,N=1的情况下,领域列表第一项平均得分为76.1%,而N=2时该值只有45.6%,且此时第二项平均得分为27.8%,这说明当系统返回的第一项得分超过某一个阀值(如50%)时,该项便很大程度上就是该专家的研究领域。当N=3时,这种情况的主要原因就是专家的跨领域研究和学科交叉影响所致。 6 结语 本文采用文档权重归并法,结合N元语言模型,构建了一种通用的高校专家领域识别的体系框架,这种方法不仅实现方便,而且易于扩展。然后,以”武汉大学”为例进行了系统实现,并对其进行了初步的评价,结果表明系统可以较准确的识别出专家的研究领域。当然,该系统的设计与实现仅仅是笔者在专家研究领域识别的初步研究成果,后期的研究工作还有很大的挑战,跨领域专家的识别与重名专家的识别将是研究的重点。此外,在数据源使用和识别方法等方面,也需要做进一步地深入研究。 参考文献 [1] 森格,王秋海等.第五项修炼[M]. 北京 : 东方出版社, 2006 [2] 百度百科[EB/OL]. http://baike.baidu.com/view/1477612.htm.2009-4-8 [3] S. Kim. Natural language processing for expertise modeling in e-mail communication[C],England: The Third International Conference on Intelligent Data Engineering and Automated Learning, 2002 [4] RamonSANGüESASOLé, SERRA J M P. NetExpert: A Multiagent System for Expertise Location[C]. Proceedings of Internation Joint Conference on Artificial Intelligence (IJCAI'01) Workshop Organizational Memories and Knowledge Management, Kluwer Academic Publishers, 2001 [5] 杨彩鸽,曹俊霞. 基于Web的学术专家管理系统的设计与实现[J]. 现代电子技术, 2005(17): 53-55 [6] 王霞仙,刘萍. 高校专家专长档案构建的研究[D]. 武汉:武汉大学信息管理学院,2008 [7] 陆伟,赵浩镇.基于文档权重归并法的企业专家检索[J].现代图书情报技术2008(7): 38-42 [8] 陆伟,韩曙光.组织专家的检索系统设计与实现[J] .情报学报2008,27(5):657-663 [9] 徐望,王炳锡.N—gram语言模型中的插值平滑技术研究[J]. 信息 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 大学学报,2002,3(4):32-37 [10] F. Peng, X. Huang, D. Schuurmans, and S. Wang. Text Classification in Asian Languages without Word Segmentation [C], Proceedings of the Sixth International Workshop on Information Retrieval with Asian Languages (IRAL),2003:41-48 [11] Lingpipe API [EB/OL]. http://alias-i.com/lingpipe/docs/api/index.html.2009-7-1 [12] 陈素萍,谢丽聪.一种文本特征选择方法的研究[J]. 计算机技术与发展, 2009,19(2):31-37 [13] Apache Lucene – Overview [EB/OL].http://lucene.apache.org/java/docs/index.html. 2009-7-1 [14] JDOM v1.1 API Specification [EB/OL].http://www.jdom.org/docs/apidocs/index.html. 2009-7-1 [15] Lingpipe 官网. [EB/OL]. http://alias-i.com/lingpipe/.2009-7-2 [16] F. Peng, D. Schuurmans, S. Wang. Language and task independent text categorization with simple language models[J], Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,2003,1:110-117 数字图书馆版权保护技术及其规避行为的法律对策 邱均平 陈敬全 图书馆建设 2003 01 数字图书馆 版权保护技术 规避 信息资源数字化、网络化是数字图书馆建设的重要内容…… 文档ID(4个字节) 领域ID(4个字节) 得分(8个字节) 1 5 0.86523 2 2 0.68412 …… …. …….. _1308578191.unknown _1308814382.unknown _1322476455.unknown _1322476874.unknown _1321113435.vsd � � � � 数据抓取 领域信息 抽取 按照文档权重归并 专家领域列表 人工检测 查询主题 (专家姓名) 建立索引 检索 描述领域特征的领域集 查询专家所发表的论文集 索引结果集 与专家相关的领域文档结果集 按照领域得分排序 领域核心期刊 专家期刊论文 _1321027829.vsd � 文档-领域索引 文件Train.data Lucene生成的索引文件 领域分类文件 所有保存的xml文档 生成索引文件 领域映射表 Train.map _1308814380.unknown _1308814381.unknown _1308578209.unknown _1308578112.unknown _1308578159.unknown _1308578031.unknown _1308578091.unknown _1308577999.unknown
本文档为【专家研究领域自动识别研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_808910
暂无简介~
格式:doc
大小:476KB
软件:Word
页数:7
分类:互联网
上传时间:2012-06-15
浏览量:10