首页 知识图谱工具比较研究_肖明

知识图谱工具比较研究_肖明

举报
开通vip

知识图谱工具比较研究_肖明肖明邱小花黄界李国俊冯召辉:知识图谱工具比较研究XiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohui:ComparisonofSoftwareToolsforMappingKnowledgeDomain6161ComparisonofSoftwareToolsforMappingKnowledgeDomainXiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohuiAbstractThisarticlefirstintroduce...

知识图谱工具比较研究_肖明
肖明邱小花黄界李国俊冯召辉:知识图谱工具比较研究XiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohui:ComparisonofSoftwareToolsforMappingKnowledgeDomain6161ComparisonofSoftwareToolsforMappingKnowledgeDomainXiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohuiAbstractThisarticlefirstintroducesthegeneralworkflowofmappingknowledgedomain,andthenanalyzestwelverepresentativeknowledgemappingtoolsintermsofdataformat,datapreprocessing,relationshipmatrixconstruction,stardardizationmeasuresandanalysismethodstheyenablerespectively.Asummarywillbeprovidedintheend,describingthestrengthsandweaknessesofthesetools,soastohelpusersselectthebesttoolinaccordancewiththeirownresearchneeds.KeywordsMappingKnowledgeDomain,softwaretools,comparativestudy,MappingKnowledgeDomainWorkflow知识图谱工具比较研究*肖明邱小花黄界李国俊冯召辉摘要介绍知识图谱分析一般 工作流程 财务工作流程表财务工作流程怎么写财务工作流程图财务工作流程及制度公司财务工作流程 ,分析12种有代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 性的知识图谱工具,从数据格式、数据预处理、构建关系矩阵、数据标准化处理以及所支持的知识图谱分析方法5个方面对比12种软件的差异,总结各种软件的优势和劣势,使用户能根据自身研究的需求,选择相应功能的知识图谱软件工具。关键词知识图谱软件工具比较研究知识图谱流程0引言知识图谱(MappingKnowledgeDomain)是指用可视化技术来发现、描述、分析以及最终展示数据或文本之间的相互关系。具体来说,知识图谱把统计学、应用数学、计算机科学、信息科学、文献计量学等学科的理论和方法相结合,再用可视化的方式来展现学科的发展历程、研究现状、前沿领域以及整体知识框架的多学科融合的一种研究方法[1]。知识图谱的最大优点是一种利用空间形态来形象地表现学科、领域、专业、个人文献或作者间相互关系,旨在展示学术研究中的学科网络结构和变化动态,通过引文分析、共作者分析、共现分析等分析方法来发现学科内和子学科间的联系,掌握当前学术研究的热点问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,预测学科的发展方向。在讲究海量数据挖掘的今天,将这些杂乱无章的数据进行梳理,再通过一些可视化软件工具来形象的展示,对商业智能研究、数据挖掘研究、信息管理研究等领域来说,无异于锦上添花,一图胜千言,在Web2.0、社交网络盛行以及大数据来临的时代,数据可视化领域也越来越受到各类研究者的关注。1知识图谱分析流程本文结合参考文献[2]中的流程,将知识图谱分析的流程归纳总结如图1所示:图1知识图谱分析的流程* 本文得到国家社会科学基金项目“基于多方法融合的中外图书馆学情报学知识图谱实证研究”(编号:11BTQ019)资助。本文得到中央高校基本科研业务费专项资金资助(项目编号:FRF-BR-13-016)。图书馆杂志LibraryJournal6262·新技术应用·(a)数据检索:国内外常用的可以进行知识图谱分析的数据源有:ISIWebofScience(WOS)、ScoPus(http://www.scopus.com)、Googlescholar[3](http://scholar.google.com)、NLM’sMEDLINE(http://www.ncbi.nlm.nih.gov/pubmed);这几个数据库有各自的特点和优势,收录的文献也有一定的差异,另外还有其他的一些文献计量数据源:arXiv(http://arxiv.org),CiteSeerX(http://citeseerx.ist.psu.edu/)、DigitalBibliography&LibraryProject(DBPL;http://dblp.uni-trier.de/)、SAO/NASAAstrophysicsDataSystem(ADS;http://adswww.harvard.edu/)、ScienceDirect(http://www.sciencedirect.com/)以及国外的一些专利数据和基金数据,如:theUnitedStatesPatentandTrademarkOffice(USPTO;http://www.uspto.gov/)、EuropeanPatentandTrademarkOffice(http://www.epo.org)和NationalScienceFoundation(http://www.nsf.gov/)。国内常用的数据源有:中国知网(CNKI)、中国社会科学引文索引(CSSCI)。(b)数据预处理:数据预处理是整个分析的重点,要想获得理想的结果,更好地显示数据间的关系,就得依赖于数据的质量和一些好的预处理方法。例如:(1)查重:数据中常常会用不同的拼写方式来表示同一概念或主题的情况,这时就需要进行必要的查重处理,提高数据的精确性;(2)拼写错误或不完整:由于一些人为的原因,可能会出现作者的名字、期刊名、参考文献名拼写错误或通讯地址不明确,网址不完整的情况,这时就得额外添加一些信息来补充、验证、最终唯一确定该数据;(3)时间切片[4]:首先就将数据分为不同时间的子周期,便于对不同时间段进行分析、研究,全面地了解发展的前因后果;时间切片可积累计算,即后面的数据表格可包括所有先前的时间间隔内的信息,也可以进行完全切片,即每个数据表格只包括其自身的时间间隔的数据信息。累计的数据表格可用于查看其随时间的发展变化而被完全切片的数据表格可以用于显示随着时间的推移其结构的变化;(4)典型数据的选取:通常情况下,在拥有很多数据时,图谱很难正确、清晰地表现出数据之间的关系,为了获取更好的显示效果,更准确的数据分析结果,通常就要对数据进行缩减,选取一些典型的数据来分析,如:选取被引次数最多的文章来分析,选择核心期刊上的数据,选择H指数较高的作者等;(5)选取前N个节点数和边来分析,同时去掉孤立节点,对边进行修剪,这样可以用更少量的数据来更强地表现网络的重点。(c)构建关系矩阵网络:在构建网络前,可以考虑选取不同的角度,从多个侧面来分析,如:从作者之间关系入手,从引文来思考,从文献所载的期刊的级别等。简单地说,要分析研究领域的不同方面,就要依赖于所选的分析要素。例如:可以分析作者的社会结构,所属的机构——属于同一所大学、同一科研机构、同一个国家等。所使用的分析方法有:共词分析、共引分析、共作者分析、书目耦合分析、期刊耦合分析等。(d)规范化处理:在构建网络的分析要素选好后,就需要对数据进行一些规范化处理。最常用的公式有[5]:Salton余弦、Jaccard指数、Equivalence指数、关联强度、h-指数、g-指数、hg-指数、q2-指数等。(e)可视化数据:可视化数据是最重要的一环,主要是运用各种不同的算法,利用所选的分析要素来构建整个网络图谱。如:K-eas算法、层次聚类算法等。常用的技术有:降维技术,如使用MOS把网络转化成一个低维空间(通常是二维);聚类技术,使用一些聚类算法把大的网络聚类成一些小的子网络;最近提出的一些新的聚类算法,如:Streemer[6]、spectralclustering[7]、modularitymaximization[8]、aboot-strapresamplingwithasignificanceclustering[9]等。(f)图谱参数调整:最初形成的图谱还需要进行一些必要的处理,才能更好地提取出有用的信息,以进行进一步的分析。图谱会根据我们所选指标和分析单元的不同,呈现出不同的样式。如果想要了解某学科的发展历史,现实发展状况以及未来的发展趋势时,可以选择使用时间序列分析;同时,如果想了解某个学科在某个有限的持续的时间段内的高密性,可以使用时间序列分析中一个很重要的方法——肖明邱小花黄界李国俊冯召辉:知识图谱工具比较研究XiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohui:ComparisonofSoftwareToolsforMappingKnowledgeDomain6363突发性检测;如果想知道分析要素的空间属性或地理位置情况,可以使用地理空间分析。例如:可以运用共作者(或合作者)作为分析单元,然后进行突发检测,再将属性相近的作者聚类,同时,在网络中,可以在每个节点上显示作者的国家/所属机构情况。(g)对结果的解读:前面所做的所有的努力,都是为对最终结果的解读服务的,结果解读的深度和质量是因分析者的经验、知识、学术背景、学术功底而有很大差异的。2知识图谱工具介绍此部分主要从软件的最新版本,是否开源,运行需要的环境,有无用户手册或帮助文档,客户端的差异以及开发机构6个方面来介绍这12种软件,即:Pajek[10]、CitespaceⅡ[11]、UCINET[12]、Bibexcel[13]、Gephi[14]、VOSviewer[15]、VantagePoint[16]、NetworkWorkbenchTool[17]、Sci2Tool[18]、In-SPIRE[19]、SciMAT[20]、Histcite[21-22]。以下是对这些软件基本情况的一个介绍:3知识图谱工具比较此部分主要从软件支持的数据格式、数据预处理、构建关系矩阵所支持的方法、标准化处理、分析方法这5个方面来比较这些知识图谱软件工具。3.1软件支持的数据格式由于大多数软件是国外机构研发的,主要针对的是国外的用户,大多都支持WOS中的数据格式,同时,也由于我国国内CSSCI[23]在数据格式的处理上也有一定的问题和差异,所以,很多国外软件都不支持,只有少数几款软件可以通过一些格式转化软件来转化,例如:Citespace和Bibexcel。(具体情况见表2)表1知识图谱工具概况软件名称最新版本是否开源运行环境有无手册/帮助文档客户端差异,可否直接使用开发机构Pajek3.04否windows有离线独立客户端Ljubljana大学(斯洛文尼亚)Citespace3.1R3是所有系统有在线使用Drexel大学(美国)UCINET6否(提供试用版)windows有离线独立客户端AnalyticTechnologiesBibexcel2012-6-13否windows有离线独立客户端,可直接使用Umea大学(Sweden)Gephi0.8.1-beta是所有系统有离线独立客户端AssociationfortheAdvancementofArtificialIntelligenceVOSviewer1.5.1否所有系统有离线独立客户端Leiden大学(荷兰)CWTS研究机构Vantage-Point7.1否(提供试用版)Windows和Vista有离线独立客户端SearchTechnologyNetworkWork-benchTool1.0.0是所有系统有离线独立客户端,直接使用Indiana大学(美国)Sci2ToolV1.0alpha是所有系统有离线独立客户端,直接使用Indiana大学(美国)In-PIRE5.0否Windows和Vista有离线独立客户端西北太平洋国家实验室SciMATV1.1.01是所有系统有离线独立客户端Granada大学(西班牙)Histcite12.03.17否所有系统有基于浏览器的客户端ThomsonReuters图书馆杂志LibraryJournal6464·新技术应用·3.2数据预处理数据的预处理是关系最终分析质量好坏最重要的一步,不同知识图谱分析软件在数据预处理方面的能力也是差异很大的。各软件的预处理能力见表3:表3软件的数据预处理比较软件名称数据预处理Pajek无此功能Citespace时间切片,数据和网络的缩减UCINET无此功能Bibexcel数据和网络的缩减Gephi无此功能VOSviewer无此功能VantagePoint去重处理,时间切片和数据缩减NetworkWorkbenchTool去重处理,时间切片,数据和网络的缩减Sci2Tool去重处理,时间切片,数据和网络的缩减In-SPIRE数据缩减SciMAT去重处理,时间切片,数据和网络的缩减Histcite无此功能从表3可以看出,各款软件在数据预处理方面的优劣是很明显的,Pajek、UCINET、Gephi、VOSviewer、Histcite没有数据预处理功能,它们的特点主要表现在其他的功能上(具体的优势,将在后面提及)。和前面几款工具的对比,NetworkWorkbenchTool、Sci2Tool、SciMAT在数据预处理方面的优势非常明显,能根据具体的需要对数据进行相应的预处理,尤其是SciMAT,它采用动态过滤器,通过此过滤器来选择想要的节点和边,使用交互式的用户接口来实时过滤网络,这样,就可利用过滤结果构建新的网络。In-SPIRE也只有数据缩减这一个模型,它直接对数据进行分片处理,而不必将数据集分成不同的时间片,再对数据进行预处理,这样就可能存在一个弊端,当数据量非常大的时候,数据的分片浪费的时间更多,而且效果也不明显。3.3构建关系矩阵所支持的方法在构建关系矩阵时,通常有很多种关系:作者引文耦合(authorbibliographiccoupling/ABCA)、文献引文耦合(documentbibliographiccoupling/DBCA)、期刊引文耦合(journalbibliographiccoupling/JBCA)、作者合作(authorcoauthor/表2软件支持的数据格式软件名称所支持的数据格式Pajek自身的I-mode和2-mode,UCINET的DL格式genealogical的GED格式,MAC(MacMolecule)和MOL格式文件CitespaceWOS中的TXT格式,用软件转化了的CSSCI格式UCINET[28]矩阵格式BibexcelWOS中的TXT格式,用软件转化了的CSSCI格式GephiGEXF(推荐格式),GDF,GraphML,PajekNET,DOT,CSV,UCINET的DL,TulipTLP,Netdraw的VNA,Spreadsheet(Excel)[14]VOSviewerWOS中的TXT格式VantagePoint从EXCEL,ACCESS,XML导入的文档格式NetworkWorkbenchToolWOS中的TXT,bibtext格式,graphml,.xml,Pajek.NET,Pajek.Matrix(*.mat),NWB(*.nwb),TreeML(*.xml),Edgelist(*.edge),csv[17]等Sci2ToolWOS中的TXT,bibtext格式,graphml,.xml,Pajek.NET,Pajek.Matrix(*.mat),NWB(*.nwb),TreeML(*.xml),Edgelist(*.edge),csv[18]等In-SPIREexcel,word,html,msclipboard,XML,pdf,DBF,SQLscript,sylk,dif(以ASCII方式存储图形),CSV等SciMATWOS中的TXT格式和RIS格式HistciteWOS中的TXT格式肖明邱小花黄界李国俊冯召辉:知识图谱工具比较研究XiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohui:ComparisonofSoftwareToolsforMappingKnowledgeDomain6565ACAA)、国家(或地区)合作(countrycoauthor/CCAA)、机构合作(institutioncoauthor/ICAA)、作者同被引(authorcocitation/ACA)、文献同被引(documentcocitation/DCA)、期刊同被引(journalcocitation/JCA)、共词(co-word/CWA)、直接引用(directlinkage/DL)[5]以及其他的一些特殊形式,各个软件在构建这些矩阵时也有很大的不同。具体情况见表4。从表4可知,Pajek、Gephi[24]、VOSviewer、Histcite没有此功能,In-SPIRE构建关系矩阵的方法也很有限,主要是构建共词矩阵并对其分析,而Citespace、Bibexcel、VantagePoint、NetworkWorkbenchTool、Sci2Tool、SciMAT这几款能提供多种关系矩阵,基本能满足学术研究的要求。同时在此也要看到不足之处,目前主流的知识图谱分析软件中,还没有一款软件能构建以上所有的关系矩阵,但是这些软件都各有特点和优势,甚至可以构建一些特殊的关系矩阵,例如:Citespace可以构建co-grant矩阵[11],SCI2能构建二分网络(Bipartitenetwork)、Bibexcel和VantagePoint可以直接用具体的字段来构建一些矩阵,如:异质网络,通过在行和列中使用不同的字段,例如:作者、题名等,就可以抽取出作者每年的变化矩阵。另外,NetworkWorkbenchTool、Sci2Tool、SciMAT支持通过直接引用来抽取网络,构建关系矩阵。3.4标准化处理各种软件常用的标准化处理的方法见表5:从表5可以看出,Salton余弦和Jaccard指数在数据规范化中运用得最为广泛;Gephi[24]、NetworkWorkbenchTool、Sci2Tool在此部分,表4软件支持实现的关系矩阵耦合共作者共引软件名称作者文献期刊作者国家机构作者文献期刊共词直引其他PajekCitespaceUCINET0BibexcelGephiVOSviewerVantagePointNetworkWorkbenchToolSci2ToolIn-SPIRESciMATHistcite表5标准化处理方法软件名称标准化处理Pajek无CitespaceSalton余弦,DICE强度和Jaccard强度UCINETJaccard指数,cohen’skappa,identity系数,correlation,hamming-simBibexcelSalton余弦,Jaccard指数,Vladutz和Cook标准化,H-指数Gephi用户可以自定义VOSviewer关联强度VantagePointPearson’sr,Salton余弦,最大均衡NetworkWorkbenchTool用户可以自定义Sci2Tool用户可以自定义In-SPIRE条件概率SciMAT关联强度,Equivalence指数,Inclusion指数,Jaccard指数,Salton余弦,H-指数,g-指数,hg-指数,q2-指数Histcite无图书馆杂志LibraryJournal6666·新技术应用·用户可以根据具体的需要,自行定义,在讲求个性化和创新性方面,给了研究人员足够的空间,也使得知识图谱软件工具的研究更加完善、全面。SciMAT在数据规范化方面,在目前流行的知识图谱软件工具分析中是做得最好,它不仅支持常用的Jaccard指数,Salton余弦,关联强度等,在进行引文分析时,更加入了H-指数,g-指数,hg-指数,q2-指数,这使得研究者能更快地找到自己感兴趣的知识或某领域最有影响力的文章、人物、事件等。3.5分析方法不同软件可以进行不同的分析,所支持的知识图谱分析方法也不同,最常见的分析方法有:(a)突发检测(burstdetection):即观察某一变量在一段时间内的变化情况,且这个变化很剧烈。学术数据集可被理解为一个离散的时间序列,例如,以维度—时间来排序和一系列时间-观察值。观察值(如文献、作者)在定期间隔内(如按照日、星期、月份、季度年份)获取。这样就可按时间来突发检测作者、文献、关键词、引用率的变化情况。(b)地理空间分析(Geospatial):地理空间分析旨在展示事件发生的地点以及该事件是否对邻近地区产生影响。地理空间分析的数据可为连续的(即每一条记录都有一个特定的位置)或离散的(即每个关键字设置都有一个位置或面积形状文件-例如,每个国家的 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 数)数据。空间聚合(例如,通过邮政编码,县,州,国家和大洲进行合并)是常见的地理标示方式。(c)构建网络(network):构建网络有很多具体的方法,计算中心度(centrality)、聚类系数(ClusteringCoefficient)、K-近邻(K-neighbours)、点的权重(node-weight)、边的权重(edge-weight)、层次分析(Hierarchicalanalysis)、K-core(K-核心)、多维尺度分析[25](MultiDimensionalScaling)、最短路径(shortestpath)、betweenness(中介性)、度分布(degreecontribution)、排序(PageRank)等。(d)时序分析(temporal):时间序列,即按时间顺序排列事件或数据观察结果。时间序列数据可以是连续的(即在每一个瞬间都有观察值),也可以是离散的(即定期或不定期的观察值)。例如,分析某个具体学术领域的发展情况、某位作者发文情况等。时序分析的目的在于明确被观测序列如模式、趋势、季节性、离群和活动等随时间的变化情况。这是在知识图谱分析中最为常见的一种分析方法。(e)性能和质量分析(performanceandqualityanalysis):主要是包括一些最基本的统计分析,如:数据总量、最大值、最小值、平均引用量等,给读者一个初步的认识。各种软件具体情况见下表6:表6分析方法软件名称所使用的常用分析方法Pajek构建网络,时序分析Citespace突发检测,地理空间分析,构建网络,时序分析UCINET构建网络Bibexcel构建网络Gephi社区检测,动态网络分析VOSviewer社区检测,构建网络VantagePoint突发检测,地理空间分析,构建网络,时序分析NetworkWorkbenchTool突发检测,构建网络,时序分析Sci2Tool突发检测,地理空间分析,构建网络,时序分析In-SPIRE突发检测,构建网络,时序分析SciMAT构建网络,时序分析,性能和质量分析Histcite时序分析从表6可以看出,大多数软件在可视化之前都要进行必要的分析,分析方法的种类有所不同,其中,突发检测、构建网络、时序分析是最常用的分析方法,由于使用最为广泛,所以也很受研发者的青睐,其中,尤其是在构建网络中,众多的评估方法(如:计算中心度、聚类系数[26]等)可以更深入地挖掘数据以及数据之间的信息。地理空间分析是一个新的亮点,结合Google或yahoo!地理编码,可以很形象地展示出文献,作者所属的国家、地区。同时在一张地图上就能反映出一些国家或地区科研水平的高低。肖明邱小花黄界李国俊冯召辉:知识图谱工具比较研究XiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohui:ComparisonofSoftwareToolsforMappingKnowledgeDomain6767Citespace、VantagePoint、Sci2Tool这三款软件在地理空间分析的实现上做得很好。尽管NetworkWorkbenchTool和sci2有很多的相似之处,而能够进行地理空间分析就是Sci2所特有的。4总结通过以上的分析,对这些软件的功能有了大概的了解,下面对各个软件的特点与其他软件相比的优势和劣势做一个总结:(1)Pajek:它在数据的预处理和数据的规范化处理方面能力有限,这是该软件的一个不足之处,但是它可以支持多种格式的输入,同时还能识别其他软件处理的数据,如:UCINET的DL格式等。强大的图形处理是pajek[27]最大的一个特点,在处理大量数据的复杂网络时,它提供多种有效的算法,将大型的网络有效分解为几个小的子网络,很好地解决了大型网络难以可视化的问题。它不仅支持构建一些普通的网络(例如:有向网络、无向网络、混合网络),还能构建一些特殊的网络,例如:多关系网络,暂时性网络(动态图—网络随时间演化)等。不仅如此,pajek还可以帮助其他的一些知识图谱软件工具生成图谱:例如:Ucinet就可以将数据和数据处理结果输出到pajek来可视化。(2)Citespace:它是国内研究者使用最多的一款软件,它支持除了开发者美籍华人陈超美在中国大力宣传和推广外,其软件自身的功能也做得比较完善,在构建知识图谱的整个流程中,各个步骤的处理都很能满足不同研究者的需要,例如:从数据支持的格式来看,通过数据转化软件,可以导入CSSCI的数据,这对于中国的研究者来说,是个莫大的福音。除此之外,该软件还注重功能的升级创新,不断发布新的版本,免费供研究者使用。(3)UCINET:它是一款商业软件,但是它提供试用版本。与其他软件相比,UCINET的最大的优点在于能够将一些原始数据转化为矩阵格式,从而构建各种关系矩阵,例如:作者共现矩阵,关键词共现矩阵,期刊共被引矩阵等[28]。同时它能提供了大量数据管理和转化工具,在CNKI上搜索的数据,经过格式的转换,也能被Ucinet所识别。Ucinet不包含网络可视化的图形程序,但是在软件的可视化模块中,它集成了NetDraw、Pajek、Mage等软件来对数据进行可视化[29]。(4)Bibexcel:Bibexcel客户端和NetworkWorkbenchTool、Sci2Tool一样,无需安装,直接打开就开始操作,简便快捷。Bibexcel最大的优点在于对共现关系的分析,尤其是在分析WOS文献数据和专利数据时[23]。和citespace一样,在分析CSSCI的数据时,要先用大连理工大学刘盛博开发的中文数据格式转化软件将CSSCI数据格式转化为SCI数据格式。再导入到Bibexcel中构建矩阵。再将产生的共现数据存入Excel表格中,同时借助Netdraw等可视化软件,做进一步的可视化分析[23]。(5)Gephi:Gephi被誉为“数据可视化领域的Photoshop”,它的界面非常优美,它构建在NetBeans平台上,可实现边动态和分层图的交互可视化与探测的开源工具。和pajek一样,Gephi能处理大量的数据,适合于绘制大型的图谱,支持的节点数达50,000个,支持的边达1,000,000条之多。和NetworkWorkbenchTool、Sci2Tool一样,使用Gephi的用户可以自定义插件,在Gephi的官方网站插件一栏中下载研究所需要的插件,这样增强了用户的自主性。Gephi还支持中文操作,有相关的中文视频教程,加之此软件操作简单,用户可以很容易地掌握并使用该软件。(6)VOSviewer:VOSviewer是一款专门设计用于构建可视化知识图谱的软件,和pajek、Gephi一样,软件功能非常强大,适合于构建大型复杂网络图谱。VOSviewer的一个最主要的特点是:在呈现图谱时,使用VOS图谱技术,运用关联强度的相似性测量,这样在二维图中,就可以突出最重要的标签(出现的频率也是最多的),同时在视图中,用户还可放大某个具体的区域来发现隐藏在最重要关键词后面的一些词条,这样在显示数据集主要信息的同时,又可以避免一些重要节点和标签相互覆盖的情况。(7)VantagePoint:VantagePoint和Ucinet、In-SPIRE一样,是一款商业软件,但它提供试用版本。VantagePoint一大特点是:它有多达180个过滤器,可以允许用户输入很多常用格图书馆杂志LibraryJournal6868·新技术应用·式的文献数据和专利数据库的数据,同时还要专门的过滤器来输入Excel、ACCESS、XML文档格式的数据。另外,VantagePoint的另一大优势表现在数据预处理和对数据的清理方面,使用cleanup功能,对数据进行清理。该功能能识别同意以的词条,同时根据叙词表,进行模糊匹配,进而清理重复数据。(8)NetworkWorkbenchTool和Sci2Tool都是由美国的Indiana大学研发的,两款软件在进行知识图谱分析时功能非常强大,能构建多种矩阵,进行各种分析并可视化。它们的功能有很多的相似之处,很多算法都可以通用,都支持自定义插件。他们在数据预处理方面做得很好,支持数据的去重处理,时间切片,数据和网络的缩减,但是他们之间还是有一些细微的差别,由于NetworkWorkbenchTool在Sci2Tool之后开发的,它整合了Sci2Tool的一些算法,同时合并了一些功能,使软件更简便易学,好操作。当然,Sci2Tool也保留了自己的一些特点,如:Sci2可以进行地理空间分析,将数据信息通过地图来展示[30]。(9)In-SPIRE:In-SPIRE最大的一个优势是,可以读取多种数据格式,既能读取像HTML、XML、Excel这样规范性的文档,同时,也能读取不规范的文档,例如:ASCII文本。同时,与其他软件不同,In-SPIRE使用空间向量模型来计算文档间的相似性。主要使用两种视图:主题视图和云系视图,主题视图可以三维呈现(很多图谱只能二维展示,这也是In-SPIRE的一大优势),用户可以通过图谱很直观地发现最重要的区域(该区域中有很多文档聚集),在云系视图中,可以基于其 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 找到相似的文档。(10)SciMAT:除了功能强大的数据预处理能力外,SciMAT是知识图谱分析工具中,进行纵向的时序分析最好的软件。它的时间序列呈现方式简捷,这样用户就可以轻易的判定该领域的发展过程,同时判断出起关键作用的作者或文献。在规范化处理时,除了通用的Jaccard指数,Salton余弦,关联强度外,在进行引文分析时,更加入了H-指数,g-指数,hg-指数,q2-指数。SciMAT中GUI最重要的模块就是分析向导,用户在使用该软件时,它会引导用户进行相应的操作,以便用户根据需要选择方法和算法。(11)Histcite:Histcite只能识别WOS中的数据Histcite,总体来说,操作方法简单易学,虽然功能没有其他软件那么强大,但是还是可以进行一些最基本的分析[22],例如:在导入数据后,可以迅速分析出数据的一些最基本的信息(例如:数据记录总数、作者总数、期刊总数、参考文献数,关键词总数等)。可以通过本地引用次序(localcitationscore/LIS)的排序,快速定位该领域的重要文献,通过本地参考文献数的排序(localcitedreferences/LCR)找到近期该领域发表的重要文献,发现新的动向。参考文献[1]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009(1):30-37.[2]CoboM.J,López-HerreraA.G,Herrera-ViedmaEetal.Sciencemappingsoftwaretools:Review,analysis,andcooperativestudyamongtools[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2011,62(7):1382-1402.[3]FalagasME,PitsouniEI,MalietzisGA,etal.Comparisonofpubmed,scopus,webofscience,andgooglescholar:strengthsandweaknesses[J].TheJournaloftheFederationofAmericanSocietiesforExperimentalBiology,2008,22(2):338-342.[4]Garfield,E.Scientography:Mappingthetracksofscience[J].CurrentContents:SocialandBehaviouralSciences,1994,7(45),5-10.[5]CoboMJ,Lopez-HerreraA.G,Herrera-Viedma.E.SciMAT:Anewsciencemappinganalysissoftwaretool[J].2012,63(8):1609-1630.[6]KandylasV,PhinesUphamS,UngarLH.Analyzingknowledgecommunitiesusingforegroundandbackgroundclusters[J].ACMTransactionsonKnowledgeDiscoveryfromData,2008,4(2)1-34.[7]Chen,C,Ibekwe-SanJuanF,HouJ.Thestructureanddynamicsofcocitationclusters:Amultiple-perspectivecocitationanalysis[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2010,61(7):1386-1409.[8]ChenP,RednerS.Communitystructureofthephysicalreviewcitationnetwork[J].JournalofInformetrics,2010,4(3):278-290.[9]RosvallM,BergstromCT.Mappingchangeinlargenetworks[J].PLoSONE,2010,5(1):5-10.[10]Pajek[EB/OL].[2012-07-15].http://pajek.imfm.si/doku.php?id=pajek.[11]Citespace[EB/OL].[2012-07-16].http://cluster.cis.drexel.edu/~cchen/citespace/.[12]UCINET[EB/OL].[2012-07-16].www.analytictech.肖明邱小花黄界李国俊冯召辉:知识图谱工具比较研究XiaoMing,QiuXiaohua,HuangJie,LiGuojun,FengZhaohui:ComparisonofSoftwareToolsforMappingKnowledgeDomain6969com/ucinet/.[13]Bibexcel[EB/OL].[2012-07-16].http://www8.umu.se/inforsk/Bibexcel/.[14]Gephi[EB/OL].[2012-07-17].http://gephi.org.[15]VOSviewer[EB/OL].[2012-07-17].http://www.vosviewer.com/.[16]VantagePoint[EB/OL].[2012-07-16].https://www.thevantagepoint.com/.[17]NetworkWorkbenchTool[EB/OL].[2012-07-17].http://nwb.cns.iu.edu/.[18]Sci2Tool[EB/OL].[2012-07-17].https://sci2.cns.iu.edu/user/index.php.[19]In-SPIRE[EB/OL].[2012-07-17].http://in-spire.pnnl.gov/.[20]SciMAT[EB/OL].[2012-07-16].http://sci2s.ugr.es/scimat/index.html.[21]Histcite[EB/OL].[2012-07-16]http://thomsonreuters.com/products_services/science/science_products/a-z/histcite/.[22]李国俊,刘恩涛,肖明.文献计量可视化软件的分析与实现[J].图书馆杂志,2011(10):72-78.[23]姜春林,陈玉光.CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究[J].图书馆杂志,2010,29(4):58-63.[24]BastianMathieu,HeymannSebastien,JacomyMathieu.Gephi:AnOpenSourceSoftwareforExploringandManipulatingnetworks[C].in:InternationalAAAIConferenceonWeblogsandSocialMedia,California,2009:361-362.[25]陈悦,刘则渊,陈劲,侯剑华.科学知识图谱的发展历程[J].科学学研究,2008,26(3):449-458.[26]梁秀娟.科学知识图谱研究综述[J].图书馆杂志,2009(6):58-62.[27]胡长爱,朱礼军.复杂网络软件分析与评价[J].数字图书馆论坛,2010(5):33-39.[28]包惠民,李智.CNKI数据实现ucinet共现分析的方法及实证分析[J].软件导刊,2012(1):91-93.[29]刘军.整体网分析讲义——UCINET软件应用:第二届社会网与关系管理研讨会资料[C].哈尔滨:哈尔滨工程大学社会学系,2007-01-18.[30]Börner,K,Huang,W,Linnemeier,Metal.Rete-netzwerk-red:Analyzingandvisualizingschol-arlynetworksusingthenetworkworkbenchtool[J].Scientometrics,2010,83(3):863-876.肖明北京师范大学信息管理系,教授,系主任,博士生导师。北京100875邱小花北京师范大学信息管理系,情报学硕士。北京100875黄界西藏农牧科学院网络中心,副研究员,主任。拉萨850002李国俊北京科技大学图书馆,硕士。北京100083冯召辉北京师范大学信息管理系,情报学硕士。北京100875(收稿日期:2012-08-02编发:刘炜赵亮)4结语面对众多自带资料学习的读者,应重视公共图书馆作为物理场所的价值,其环境文化氛围也是凝聚人气的至关前提。由于不了解而造成的高缺项率是服务营销不到位所致,将宣传推广工作融入到各个工作环节,通过服务营销传播提升知晓度和美誉度。公共图书馆作为社会文化教育平台,其文化传播活动和丰富的馆藏文献资源,都在潜移默化中实现对读者的文化塑造,对读者活动进行系统化设计并逐步推进,持续发挥图书馆的文化引领作用。总之,以读者评价为镜,以读者满意为尺,读者满意度评价的缺项分析对切实提高服务水平具有重要的启示意义。(文内办证读者数据由本馆同仁提供,谨此致谢!)参考文献[1]王世伟.关于《公共图书馆服务规范》编制的若干问题[J].中国图书馆学报,2011(3):25-37.[2]柯平等.公共图书馆的文化功能——在社会公共文化服务体系中的作用[M].上海:上海交通大学出版社,2010.[3]新闻出版总署.2011年全国新闻出版业基本情况[EB/OL].(2012-08-09)[2012-09-28].http://www.gapp.gov.cn/cms/cms/website/zhrmghgxwcbzsww/layout3/xxml33.jsp?channelId=1392&siteId=21&infoId=762198.[4]於坚秋.公共图书馆读者信息需求与服务对策浅析[J].国家图书馆学刊,2007(1):85-88.信丹丹女,1981-,浦东图书馆,馆员,硕士。上海201204(收稿日期:2012-10-18编发:王宗义)(上接第31页)
本文档为【知识图谱工具比较研究_肖明】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥18.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
黑耀宝石
暂无简介~
格式:pdf
大小:314KB
软件:PDF阅读器
页数:9
分类:工学
上传时间:2019-03-06
浏览量:155