首页 CSSCI 数据导入Bibexcel 实现共现矩阵的方法及实证研究

CSSCI 数据导入Bibexcel 实现共现矩阵的方法及实证研究

举报
开通vip

CSSCI 数据导入Bibexcel 实现共现矩阵的方法及实证研究CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究姜春林陈玉光(大连理工大学21世纪发展研究中心辽宁大连116024)摘要:本文以针对WebofKnowledge开发的文献信息共现分析的应用软件——Bibexcel为研究对象,结合CSSCI数据库数据格式特点,解决了Bibexcel不能处理中文文献的瓶颈问题,实现了知识单元共现关系矩阵。并以CSSCI数据库中1998—2008年“信息可视化”引文数据为例,数据经过预处理后,由Bibexcel构建其知识单元共现矩阵,利用Ucinet、Netdraw软件,实...

CSSCI 数据导入Bibexcel 实现共现矩阵的方法及实证研究
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究姜春林陈玉光(大连理工大学21世纪发展研究中心辽宁大连116024)摘要:本文以针对WebofKnowledge开发的文献信息共现分析的应用软件——Bibexcel为研究对象,结合CSSCI数据库数据 格式 pdf格式笔记格式下载页码格式下载公文格式下载简报格式下载 特点,解决了Bibexcel不能处理中文文献的瓶颈问题,实现了知识单元共现关系矩阵。并以CSSCI数据库中1998—2008年“信息可视化”引文数据为例,数据经过预处理后,由Bibexcel构建其知识单元共现矩阵,利用Ucinet、Netdraw软件,实现了作者共现、关键词共现、引文共现的可视化分析。本研究扩展了Bibexcel的应用范围功能,为CSSCI数据的可视化研究提供了一种新的手段。关键词:Bibexcel、CSSCI、共现矩阵、知识图谱、可视化TransformCSSCIDatatoBibexceldatatoActualizeCo-occurrenceMatrixandACaseStudyJIANGChun-lin,CHENYu-guang(Centerofthe21stCenturyDevelopmentandResearch,DalianUniversityofTechnology,Dalian116024)Abstract:ThispaperresearchsonBibexcelthatdevelopedfortheco-occurrenceanalysisofliteratureinformationthatcomefromWebofKnowledge,andcombinedwiththecharacteristicsofdataformatsintheCSSCIdatabase,toresolvethebottleneckofco-occurrenceofChineseliteratureinformationwhichBibexcelcannothandlebyitself.Weactualizedtheco-occurrencematrixofknowledgeunitrelations.CSSCIdatabasein1998-2008"InformationVisualization"Citationdataasanexample,afterdatapreprocessing,theknowledgeunitco-occurrencematrixbuiltbyBibexcel,thenweuseUcinet,Netdrawsoftwares,toactualizestheauthorscooperativenetworkanalysis、keywordscooccurrenceanalysisandcocitationanalysis.ThisstudyextendsthescopeofapplicationofBibexcel,andprovidesanewmeansofvisualizationforCSSCIdata.Keywords:Bibexcel、CSSCI、Co-occurrencematrix、Knowledgemap、visualization1.引言科技文献数据量的快速增长给我们的研究工作带来了极大便利,同时,文献数量的增长,也给文献的管理与分析利用带来了诸多的不便[1]。如何快速、准确地得到所需要的资源,并理解这些大量文献所 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 达的内容变得越来越困难。共现分析如共作者分析、共词分析、共引分析、共被引分析等以邻近联系法则和知识结构及映射为方法论基础,来发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用的知识,并揭示研究所代表的学科或主体的结构变化。基于共现分析的信息可视化技术能形象化地表达文献信息蕴含的内容,方便科研人员和情报人员挖掘文献集中所隐含的知识。国外关于文献信息共现关系分析的应用软件已经比较成熟,如美国费城的德雷塞尔大学信息科学与技术学院的陈超美开发的基于JAVA平台的Citespace[2][3]系列应用软件;印第安纳州大学开发的大型网络分析、建模、和可视化的工具包NetworkWorkbenchTool;大型社会网络分析软件Pajek;瑞典科学家佩尔松(persson)开发的科学计量学研究软件Bibexcel[4];美国斯坦福大学开发的社会科学统计软件包SPSS等等。其中这些软件有一个共性,即主要是针对WebofScience数据进行开发的。而对于从中文社会科学引文索引(CSSCI)数据库下载的中文文献数据,它们还不能直接进行处理。由于这些软件无法对CSSCI文献数据中的知识单元进行共现计算,从而也就很难对其进一步的知识可视化分析。相对于处理英文文献信息共现分析软件的开发,处理中文数据库数据的软件相对匮乏,其中有不少学者做了一些研究,并开发出了一些通用软件。其中周春雷、王伟军等人用Delphi6编制了处理中国期刊网题录数据的软件,该软件功能主要是将数据导入Excel,仅限于相关题录数据的统计频次[5]。姜春林、杜维滨等人用VisualBasic6.0语言开发了一款软件Ccmatrix,用ADO技术连接Access自建数据库,处理统计来源文献题录数据和引文数据,实现了共现矩阵[6]。针对处理CSSCI数据共现分析相关软件相对较少的现状,为了方便广大科研人员和情报人员对CSSCI数据库中的数据进行分析,本文尝试研究了CSSCI数据导入Bibexcel实现共现矩阵的方法。2Bibexcel软件简介2.1功能介绍瑞典科学家佩尔松(persson)开发的文献计量学研究软件Bibexcel[7]用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。Bibexcel处理的数据来自集成在ISIWebofKnowledge平台上的数据库,包括WebofScience数据库、DerwentInnovationIndex数据库和Medline数据库等。Bibexcel除了对来源于上述数据库中数据的相关知识单元(作者、关键词、参考文献等)做频次分析和排序外,还实现了知识单元的共现关系矩阵。将产生的共现数据存入excel表格中,借助Ucinet、Netdraw可视化软件,做进一步的可视化分析。Bibexcel界面如图1所示。图1Bibexcel界面2.2 Bibexcel在共现分析中的优势与不足Bibexcel的强大功能在于知识单元的共现关系分析,对英文文献数据或专利数据的共现关系分析已经取得令人满意的结果。如栾春娟《专利计量研究国际前沿的计量分析》[7],对1995-2007年期间《科学计量学》出版的关于国际专利计量研究的论文和引文进行计量分析,通过Bibexecel处理,得到高被引作者共被引矩阵、高频关键词共现矩阵和高频次作者共现矩阵,再通过Ucinet绘制作者共被引网络图谱、高频关键词共现网络图谱和高产作者学术合作网络图谱。但是,在CSSCI文献数据库中,Bibexcel对中文献数据的分析存在着局限性,主要原因是在于Bibexcel不能直接处理CSSCI格式数据。中文社会科学引文索引(CSSCI)作为我国社会人文科学主要文献信息查询与评价的重要工具,CSSCI提供来源文献、被引文献、优化检索等多种信息检索。该项目成果填补了我国社会科学引文索引的空白,达到了国内领先水平。从CSSCI下载某一领域的相关文献,并对其进行分析,不但可以科学合理、客观公正地评价人文社会科学研究的成果,而且对了解国内的研究现状和研究热点,因此具有非常重要的现实意义。3CSSCI文献数据共现矩阵的实现3.1数据下载确定某一研究领域后,进入CSSCI界面(),点击“包库用户入口”,选择来源数据的“年份”和“来源文献”,进入到检索界面。在这个界面中,进一步选择其他限制条件,可以按关键词,也可以按学科类,还可以按期刊名称等进行检索。设定检索条件后,再选择每屏显示 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 的条数。为了下载方便,通常情况下选择50条。下载每屏数据,并将其保存为默认的后缀名为.txt文本文档格式。3.2将CSSCI数据格式转换为SCI数据格式从CSSCI下载相应的数据,利用大连理工大学刘盛博开发的中文处理软件对CSSCI数据进行格式转换,将CSSCI数据格式转化为SCI数据格式。经过这个软件处理后,每一条文献记录被存放于一个.txt文本文档当中,由于Bibexcel只能识别和处理一个.txt文本文档,要想对转换格式后的所有文献数据中的知识单元进行共现分析,就需要对所有的文档做进一步的合并处理。用Java编程,找到处理后文本文档所在的目录,顺序的读取文本文档,将其内容写入到一个文本文档中。在合并好的文本文档的开头,加上FNISIExportFormatVR1.0这两行代码,保存后关闭文档。3.3知识单元共现关系矩阵的处理流程CSSCI数据经过格式处理和合并文件后,实现知识单元可视化分析的关键一步,就是要构建知识单元的共现矩阵,实现了共现矩阵后,再将其导入Ucinet、Netdraw等分析软件,绘制各类知识单元的共现关系图谱。Bibexcel构建知识单元共现关系矩阵处理流程如下:Step1:打开Bibexcel,出现图1所示的操作界面,在selectfilehere这个框口中选择数据源所在的文件夹,右边的窗口会显示出这个文件夹中的所有文件。选中合并后的文本文档,点击“Misc---converttodiologeformat---convertfromwebofscience”,会弹出一个对话框,点击“确定”,就会生成一个后缀名为.doc的文件;Step2:选中.doc文件,点击Viewfile按钮,Thelist窗口就会显示这个文件的内容。根据你要分析的知识单元,在OldTag中填写相应的标签代号。作者、关键词、机构、参考文献、被引期刊的标签依次为AU、DE、C1、CD、CD。输入相应的标签后,在Selectfieldtobeanalysed下拉列表框中选择“Any;separatedfield”;如果要分析被引期刊,在输入CD标签后,在Selectfieldtobeanalysed下拉列表框中选择“JN-Journal”,然后点Prep按钮,在弹出的对话框中,点击“确定”,生成后缀名为.out文件;Step3:选中.out,在Frequencydistribution下拉列表框中选择相应的分析对象,如果分析作者共现,选择“Author”;如果分析关键词共现,选择“wholestring”;如果分析机构共现,选择“wholestring”;如果分析参考文献共现,选中“CitedReference”;如果分析被引期刊共现,选择“wholestring”;选择相应的分析单元后,在下面的复选框中选择“Sorteddescending”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.cit文件;Step4:选中.out文件,在Frequencydistribution下面的复选框中选择“removeduplicate”和“makenewout-file”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.oux文件;Step5:选中.cit文件,点击“viewfile”,在TheList显示窗口中选择频次较高的前多少位分析对象,然后点击“Analyze----co-occurrence----selectunitsvialistbox”,然后选中.oux文件,点击“Analyze----co-occurrence----makepairsvialistbox”,在弹出的窗口中,点击“否”,此时生成后缀名为.coc文件;Step6:选中.cit文件,同样点击“viewfile”,在TheList显示窗口中选择频次较高的前多少位分析对象,然后点击“Analyze----co-occurrence----selectunitsvialistbox”,然后选中.coc文件,点击“Analyze----makeamatrixforMDSetc”,在弹出的对话框中,按照提示,点“是”还是“否”,选择生成方阵还是下三角矩阵,生成的共现矩阵文件名为.ma2,将其打开,另存为后缀名为.xls文件。至此,文献数据知识单元共现关系矩阵构建完毕。Bibexcel可以构建作者共现矩阵、关键词共现矩阵、机构共现矩阵、参考文献共现矩阵。为了直观理解各知识单元之间的共现关系,需要进一步借助可视化分析软件来实现。先使用Ucinet软件将.xls转化为后缀名为.##文件后,再借助Netdraw可视化软件将知识单元之间的共现情况清晰的描绘出来,并分析图谱中节点的中介中心性和边的关联强度等。从CSSCI中的原始文献数据,到中间的知识单元共现关系矩阵,直到最终的可视化图谱,处理流程表示如下图2所示:图2 CSSCI文献数据的可视化处理流程4实证分析4.1数据来源从CSSCI直接关键词检索,分别以信息可视化、知识可视化、知识域可视化、知识图谱、知识地图、概念图、思维导图、认知地图为关键词进行检索,检索年限选择1998—2008年,下载引文数据,并保存为文本文档。总共检索出274条文献记录,其中有17条是重复的,经过去重处理后,剩下257条文献记录,将其作为本文的研究对象。4.2高产作者合作网络分析Bibexcel经过频次统计后,选择出现频次大于3的25位高产作者,并构建其共现分析矩阵。经Ucinet软件将其共现矩阵表文件转化为后缀名为.##文件后,使用Netdraw可视化软件绘制知识图谱。高产作者合作网络知识图谱如图3所示。图3高产作者合作网络知识图谱图中的小圆圈代表的是信息可视化专家,结点的大小代表的是节点的中介中心性(Betweenness)的大小,节点越大,节点在网络中占有的地位就越重要。如果两位作者之间有过合作,他们之间就会用线连接起来,边的粗细代表两个节点关联强度(TieStrength)。两个小圆圈之间的连线越粗,代表两者共现次数越多,他们研究领域的相关性越大,进行合作研究的次数也越多。从图3可以看出这25位高产作者,形成了两个最为显著的合作群体。第一个合作群体是以周宁为核心人物的9位作者组成的,他们来自武汉大学信息资源研究中心。其中周宁是高被引频次作者,该作者在网络中处于核心位置,张会平、陈勇跃、张芳芳、金大卫、吴佳鑫次之,他们都曾与周宁有过合作。周宁和张会平就大型层次化信息的可视化方法、文本信息可视化模型问题多次合作研究,是合作次数最多的两位作者,相应地在图谱中彼此之间的连线就越粗。第二合作群体来自大连理工大学21世纪发展研究中心WISE实验室。以刘则渊为核心人物,由陈悦、尹丽春、姜春林、侯海燕、侯建华、许振亮、庞杰8位作者构成,他们主要从事科学计量学、知识图谱、信息可视化方面的研究工作。这两个群体内部之间的研究方向和主题具有紧密关联性。4.3高频关键词共现分析选择频次高于3(阈值)的40个关键词为对象,采用类似的方法,绘制近10年来国内“信息可视化”研究领域的共词知识图谱,如图4所示:图4高频关键词共现网络知识图谱从图4可以看出,概念图处于网络的中心位置,其中介中心性最大,是网络中最重要节点。概念图(Conceptmaps)是一种提供可视化信息表示的方法,它利用人类的视觉能力来理解复杂的信息。用概念映射来描述由链接和结点组成的网络里的概念及它们之间的关系,即用结点描述概念,链接描述关系[9],概念图以二维图形化的形式显示知识。该方法能够使用户在已有的认知结构基础上吸收和理解新概念和相关知识。概念图被广泛的应用于教学当中。从图谱中还可以看出,围绕着概念图,形成了以可视化、知识组织、科学知识图谱、知识地图、知识管理等研究热点的结构主体,它们之间具有紧密的关联性。4.4 引文共现分析为了简洁明了展示引文网络结构的特征,我们选择被引频次高于3(阈值)的41篇参考文献为研究对象,采用同样方法,绘制引文网络共现知识图谱,如图5所示。图5引文网络知识图谱图5中每个节点代表一篇引文,节点的大小代表节点的中介中心性的大小,中介中心性大的那些节点,在不同的聚类网络中间可以起到连接和过渡的桥梁作用,它们是网络中的中枢节点。节点间连线的粗细代表两个节点之间的联系强度。关键节点文献对聚类的贡献如表1所示。表1引文网络连接中的关键节点作者文章标题节点文献对聚类的贡献文燕平WWW信息检索可视化实现原理研究分析有代表性的可视化检索系统,提出了信息检索可视化的实现原理。NovakJ.DLearningHowtoLearn提出了用概念图构建知识及概念图在教学中应用。赵国庆知识可视化的理论与方法介绍知识可视化的研究框架,给出了概念图、思维导图、认知地图、语义网络等知识可视化工具。周宁信息资源描述与存储的可视化研究提出文本信息、语音信息、视频信息可视化方法。宋绍成信息可视化的基本过程与主要研究领域信息可视化的主要研究领域:可视化变量研究、可视化模型的研究、符号系统的研究、空间认知与信息传输研究、心理学和认知科学的研究、虚拟现实研究。4.5被引期刊频次分析一个学术领域的核心期刊既可以揭示本学科文献数量在期刊中的分布规律,也能够反映本学科文献质量和学术影响力的分布规律及其本学科的热点及其前沿[10]。对信息可视化领域的文献做期刊分析能够准确反映这一领域文献的分布情况,对核心期刊的文献共引频次分析则能够反映出这一期刊所刊登的文献的利用率及其含金量。本文利用Bibexcel对所下载的信息可视化方面的257条文献记录,进行了被引期刊频次分析,分析结果如下图6。图6期刊共被引频次分布图统计发现,目前国内与信息可视化相关的文献主要发表在以下情报学和科学学类刊物中,如情报科学、情报杂志、现代图 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 情报技术、图书情报工作、中国电化教育、情报学报、情报理论与实践、科学学研究。这些刊物可以认为是信息可视化研究领域的核心刊物。5结语将CSSCI下载的数据经过格式转换后,用Bibexcel构建作者共现矩阵、关键词共现矩阵、参考文献共现矩阵、机构共现矩阵、期刊共被引矩阵,并借助Ucinet、Netdraw可视化软件,将分析单元之间的共现关系以图谱的形式显示出来,取得了较满意的结果,为从大量文献数据中发现它们之间的复杂关系提供了方便,有助于科研新手快速了解某一领域的研究现状和趋势,为其科研选题提供快速通道;也有利于知识计量学研究的方法创新,还有益于情报机构提供精细化的情报信息服务。但由于Bibexcel软件本身的原因,还不能实现被引期刊共现矩阵,这个问题还有待我们今后不断加以探索参考文献[1]任智军,朱东华,谢菲.科技文本的可视化分析研究[J].北京理工大学学报(社会科学版).2007,9(1):13-17[2]SynnestvedtMB,ChenC,HolmesJH.CiteSpaceII:visualizationandknowledgediscoveryinbibliographicdatabases[J].AMIAAnnuSympProc.2005:724-728.[3]ChenC.Searchingforintellectualturningpoints:progressiveknowledgedomainvisualization.[J].ProcNatlAcadSciUSA.2004,101(l1):5303-5310.[4]OnyanchaOB.Growth,productivity,andscientificimpactofsourcesofHIV/AIDSresearchinformation,withafocusoneasternandsouthernAfrica[J].AJAR-AFRICANJOURNALOFAIDSRESEARCH.2008,7(1):55-70.[5]周春雷,王伟军,成江东.CNKI输出文件在文献计量中的应用[J].图书情报工作.2007,51(7):124-126[6]姜春林,杜维滨,李江波.CSSCI文献数据共现矩阵的软件实现[J].情报理论与实践.2008,31(6):937-940[7].[8]栾春娟,王续琨,刘则渊,etal.专利计量研究国际前沿的计量分析[J].科学学研究.2008,26(2):334-338[9]王莲.基于概念图的知识模型及其在信息检索课中的应用[J].农业图书情报学刊.2009,21(6):112-114[10]耿正萍.核心期刊概念的演变与作用[J].煤炭高等教育,2008,26(1):121-123大连理工大学人文社会科学研究基金项目(DUTHS2008304)【作者简介】姜春林,男,1970年生,吉林延边人,大连理工大学21世纪发展研究中心副所长,副教授。陈玉光,,男,1984年生山东平度人,硕士研究生,研究方向为学科知识计量;
本文档为【CSSCI 数据导入Bibexcel 实现共现矩阵的方法及实证研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_266065
暂无简介~
格式:doc
大小:559KB
软件:Word
页数:0
分类:
上传时间:2021-08-12
浏览量:9