首页 现代信息检索ppt课件

现代信息检索ppt课件

举报
开通vip

现代信息检索ppt课件现代信息检索陆铭66134922richard.lu@shu.edu.cnmingler.ccshu.org/*一、引言课程概况研究历史和现状学科框架基本概念*1.课程概况(Aboutthecourse)设课目的市场发展的需求用户需要信息检索技术互联网的信息量太大,寻找信息非常不容易公司需要信息检索技术信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争人才的竞争搜索的技术人才出现缺口2000年的...

现代信息检索ppt课件
现代信息检索陆铭66134922richard.lu@shu.edu.cnmingler.ccshu.org/*一、引言课程概况研究历史和现状学科框架基本概念*1.课程概况(Aboutthecourse)设课目的市场发展的需求用户需要信息检索技术互联网的信息量太大,寻找信息非常不容易公司需要信息检索技术信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争人才的竞争搜索的技术人才出现缺口2000年的网络和现在的互联网有什么不同,搜索引擎在其中占什么位置?*数字化信息量举例音乐作品(莫扎特):约100MB报纸(华尔街杂志):100MB/年(文本)卡片目录(美国国会图书馆):17GB广播(WABC):270GB/年(未经压缩)网络论坛(Netnews):300GB/年地区图书馆(加州大学图书馆):1.4TB(图书扫描版)Internet出版(WWW):1997年约4TB电视(CNN新闻):1GB/1小时,6TB/年(经压缩)录像带出租(BlockbusterVideo):9TB科研图书馆(美国会图书馆):全部图书馆数字化20TB来源:美国伯克利加州大学教授PeterLyman和AlexInternet公司总裁BrewsterKahle所著《文化制品数字化存档行动纲要》*信息检索的问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 信息超载信息太多,需要过滤检索结果垃圾太多,有害信息太多查找非结构信息有困难多数数据库在结构化字段上工作多数商业信息是非结构化的.报告、电子邮件、来往公函...美国商业每年产生4500亿份文件波音747文件比飞机重量还重标引是主观的标引者之间不一致,经验统计表明标引者之间仅20%相同作者与标引者之间、检索者与用户之间不一致*信息检索的问题语言问题一词多意Bank:ariverboundaryorasavingsandloans?DNA:microbiologyorDigitalEquipmentCorporation’sNetworkArchitecture?FreeRider:Economicgametheoryorurbantransportationsystems?一意多词car,automobile,vehicle,sedan,horselesscarriage...*1.课程概况(Aboutthecourse)课程性质图书馆学研究生的必修课程课程 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 本课程的教学目的是培养学生了解信息检索工具的基本原理和技术,使学生能够进行较深层的研究或应用开发本课程不是一门讲授使用信息检索方法的课程,本课程是研究信息检索的技术实现的一门基础课程*1.课程概况——课程内容体系引言课程概况,研究历史和现状,学科框架,相关概念检索理论IR模型的形式化表示和类型,经典模型检索语言,互操作,自然语言、本体论文本检索经典、现代文本处理和全文文本处理,分类和聚合网络检索网络检索、PageRank和HITS算法信息自动处理和系统评价可视化、自动文摘、评价多媒体检索模型与语言,标引与检索,并行与分布式检索数字图书馆OPAC,文献模型、表达与存取,元数据,云数据库检索技能*1.课程概况(Aboutthecourse)授课方式自学与课堂讨论相结合课堂讲述和课后练习相结合讲授内容既包含传统内容,也注意吸收最新研究成果既考虑入门,也兼顾研究考核方式课程论文按发表要求写作,课程结束,论文录用成绩构成平时成绩:课堂演讲讨论与1篇小论文,30%考试:1篇课程论文(约500 0字 个人自传范文3000字为中华之崛起而读书的故事100字新时代好少年事迹1500字绑架的故事5000字个人自传范文2000字 ),70%*1.课程概况——参考书籍及文献详见教学大纲Baeza-Yates,R.&B.Ribeiro-Neto.eds.ModernInformationRetrieval.ACMPress,1999王知津等译.现代信息检索技术.机械工业出版社,2005苏新宁.信息检索理论与技术.科学技术文献出版社,2004焦玉英.信息检索进展,科学出版社,2003林培光等,面向Web的个性化语义信息检索技术,中国财政经济出版社,2009解虹,数字化环境下交互式信息检索,机械工业出版社,2010于天恩,迅速搭建全文搜索平台,清华大学出版社,2007*1.课程概况——参考书籍及文献第一章引言吴慰慈.网络环境下信息存储与检索技术的发展.四川图书馆学报,2003,(01)王知津;李明珍.十年来我国信息检索研究述评.现代图书情报技术,2004,(12)焦玉英.网络环境中信息检索理论与实践的发展.图书情报知识,2001,(01)*一些重要的工具Lemur:包含各种IR模型的实验平台,C++SMART:向量空间模型工具,C编写Weka:分类工具,Java编写Lucene:开源检索工具,各种语言编写的版本Larbin:采集工具,C++Firtex:检索平台,C++,计算所开发*2.研究历史和现状历史分段:计算机出现以前计算机出现以后Internet出现以后*2.研究历史和现状——计算机出现以前约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的“指针”。计算机问世以前,人们主要通过手工方式来建立索引。*2.研究历史和现状——计算机出现以后1948年C.N.Mooers在其MIT硕士论文中第一次使用了“InformationRetrieval”这个术语。1960-70年代在建立文摘检索系统中,产生了布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)和概率检索模型(ProbabilisticModel)1980年代出现商用数据库检索系统:Dialog,ORBIT,MEDLINE*2.研究历史和现状——Internet出现以后1986年Internet正式形成。1990’s第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie。第一个WEB搜索引擎:1994年美国CMU开发的Lycos。1995斯坦福大学博士生开发Yahoo。1998斯坦福大学博士生开发的Google,提出PageRank计算公式。1998年基于语言模型的IR模型提出。*2.研究历史和现状1990年代的其他重要事件:推荐系统的出现:Ringo,Amazon,NetPerceptions文本分类和聚类的使用:信息抽取:Whizbang*2.研究历史和现状2000’s的重要事件文本检索会议TREC(TextRetrievalConference)的发展问答系统评测专项Q/Atrack(QuestionAnsweringTrack)2001年,百度成立。*2.研究历史和现状2000’s以来的其他重要事件:多媒体IR,Image,Video,Audioandmusic,跨语言IR,DARPATides,文本摘要,DUC评测*2.研究历史和现状国际著名研究机构和代表人物——康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者。伦敦城市大学的Robertson及剑桥大学的SparckJones是概率模型的倡导者。美国W.B.Croft,ACMFellow:基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具*2.研究历史和现状1990年代的其他重要事件:评测会议NIST:机器翻译自动评测指标文本检索会议TREC(TextRetrievalConference)*2.国际著名研究机构和代表人物美国康奈尔大学Salton(1927-1995)现代信息检索的奠基人SMART的完成人第一任Salton奖得主,ACMFellow英国剑桥大学SparckJones(1935-2007)概率检索模型的提出者之一NLP和IR中的先辈曾获ACL终身成就奖和Salton奖*2.国际著名研究机构和代表人物美国UMassCIIRW.B.Croft,ACMFellow基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具Salton奖得主英国Glasgow大学Rijsbergen,ACMFellow信息检索逻辑推理学派的提出者和倡导者现在试图用量子物理的方法解决IR问题Salton奖得主英国微软剑桥研究院、伦敦城市大学Robertson概率检索模型的倡导者开发了OKAPISalton奖得主*2.国际著名研究机构和代表人物美国CMU美国UIUC微软研究院IBM研究院Google研究院*2.一些活跃的华裔学者加拿大蒙特利尔大学聂建云教授跨语言检索IR模型美国UIUCChengxiangZhai博士IR模型美国CMUYimingYang教授文本分类台湾中研院简立峰号称“中文搜索”第一人加入Google研究院*2.研究历史和现状国内一些活跃的研究机构——软件端北京大学,复旦大学,清华大学,哈尔滨工业大学,中科院计算所,中科院软件所,中科院自动化所应用端武汉大学,南京大学,北京大学*2.研究历史和现状—国内2000~2006,CNKI武汉大学信息管理学院32南京大学信息管理系21中山大学信息管理系21清华大学计算机科学与技术系17复旦大学计算机科学系16中国科学院计算技术研究所15北京大学信息管理系14南京农业大学信息管理系11华中师范大学信息管理系10上海交通大学计算机系10*2.研究历史和现状—国内2000~2006武汉大学信息管理学院网络信息检索:2002,2004情报检索模型理论:2001,2004,2006信息过滤:2002,2006文本知识的自动分类:2003焦玉英,刘伟成*2.研究历史和现状—国内2000~2006中山大学信息管理系网络信息过滤:2002,2003,2004,2005黄晓斌,邱明辉南京大学信息管理系文本信息检索杨建林*2.研究历史和现状—国内2000~2006清华大学计算机科学与技术系文本自动分类,自动文摘:2001~2006陈群秀复旦大学计算机系文本过滤、音频视频检索黄萱菁*2.研究历史和现状—国内2000~2006中国科学院计算技术研究所文本自动分类2001,2002文本检索:2002,2003,2004,2006知识网格:2002,2004白硕北京大学信息管理系图像检索文本检索赖茂生,黄崑,马张华*2.研究历史和现状南京农业大学信息管理系中文信息自动分类侯汉清*2.一些重要的会议国际会议:SIGIR、ACL、WWW、SIGKDDCIKM、ICMLTRECAIRS国内会议:全国信息检索及内容安全学术会议(2年一届)全国计算语言学联合会议(2年一届)*2.一些重要的期刊国际ACMTransactionsonInformationSystems(TOIS)ACMTransactionsonAsianLanguageInformationProcessing(TALIP)InformationProcessing&Management(IP&M)InformationRetrieval国内中文信息学报情报学报*2.国内重要期刊2000-2006情报杂志86现代图书情报技术81情报学报67情报科学64现代情报57图书情报工作47情报理论与实践49情报探索22科技情报开发与经济17图书馆理论与实践16图书馆学研究15图书情报知识15医学情报工作15中国图书馆学报15*2.研究历史和现状—国内重要期刊 2000200120022003200420052006小计计算机工程与应用63141918171794情报杂志2541320202286现代图书情报技术75111314161581计算机工程256822171272情报学报8512111171367情报科学5811712111064现代情报013711231257图书情报工作34781010547情报理论与实践95521251149计算机应用研究2215691439合计44437493136135131656*2.研究历史和现状—研究前沿数据库知识发现开发各种软件系统,揭示数据库中不同领域知识的联系和问题的答案,找出知识发现的新途径。语义网研究——这方面的研究项目有面向自然语言处理的语法,语义计算机模式的研究,潜在的语义索引,复合词的分析模型研究,自动构成多语种词库,存取多语种信息,用户自适应集合分类法研究,知识共生现象研究,网络知识搜寻代理等*2.研究历史和现状—研究前沿信息检索技术前沿课题包括:元数据技术、语料库技术、海量信息存储与压缩技术、信息可视化技术、图像检索技术、人机界面技术、多语言浏览器、跨语言信息检索、自然语言理解、人工智能、大规模真实文本评测、自动抽词、自动标引、自动分类、自动文摘、概念分类(Ontology)、“云”检索、信息安全和保护技术等。当前要着重内容和知识开发利用的新技术和新应用的研究和探索,以及实现这些技术和应用不可或缺的基础研究、基础建设和标准规范的采用。*3.学科体系和相关研究领域—内涵信息检索基础理论标引理论检索语言,词频统计,引文分析检索模型集合论,布尔代数,模糊数学检索结果的可视化*3.学科体系和相关研究领域—内涵检索模型布尔模型基于集合论和布尔代数,适用于普通用户,核心是二值相关,不能进行相关性排序向量空间模型以向量表示提问和文档,向量计算在后台进行,与用户无关,优点是可以进行相关性排序,也可产生文档文摘概率模型基于贝叶斯概率论,更具有普遍性,适应多媒体、语义文档的检索,具有逻辑推理能力以上模型在实践中,常常混合使用,以达到最佳效果*3.学科体系和相关研究领域—内涵信息处理与信息组织自动标引自动分类与聚类自动摘要视频音频信息索引信息的组织*3.学科体系和相关研究领域—内涵自动分类研究历史1964年以前,HPLuhn开创性工作,Maron第一篇论文,解决自动分类的可行性问题1965-1974年,试验性研究阶段1975~至今,实用化研究阶段研究内容:聚类,类号转换自动文摘语料库技术,词法分析,句法分析,信息抽取,评价*3.学科体系和相关研究领域—内涵查询扩展与优化检索词选择 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 ,控制词表技术,整体与局部分析技术检索相关性分析内涵:主题相关---系统相关用户相关---主观因素实证:1955年kent对查全率查准率的研究*3.学科体系和相关研究领域—内涵信息检索技术与方法布尔检索加权检索全文检索超文本检索信息检索技术与方法多媒体检索智能检索跨语言检索跨平台检索*3.学科体系和相关研究领域—内涵信息可视化一维信息的可视化(含有某种规律的一组数据,具有与相关性排列的检索结果)二维信息可视化(地理信息系统,图形方法表示的调查统计数据)三维信息可视化(将查全率、查准率检索速度等指标进行可视化排序)*VisualThesaurus*HyperbolicTree*AquaBrowserhttp://aqua.queenslibrary.org/*Xreferplushttp://www.xreferplus.co.uk/*Deweydecimalsystem*OCLCDeweyBrowser*3.学科体系和相关研究领域—外延相关研究领域——图书情报学(Library&Info.Science)数据库管理(DatabaseManagement)人工智能(ArtificialIntelligence)自然语言处理(NaturalLanguageProcessing)机器学习(MachineLearning)关联开放数据(LinkedOpenDada,LOD)*3.学科体系和相关研究领域—外延图书情报学(LibraryandInformationScience,LIS)IR最初起源于LISLIS主要关注IR中的用户方(人机交互、用户界面、可视化)、高效分类、文献的引用分析(citationanalysis)和文献计量(bibliometrics)。近年来数字图书馆方面的工作使得LIS和IR日益融合。数据库管理系统(DatabaseManagement,DM)。DM主要面向关系表中的结构化数据而非文本。DM主要集中于高效解决形式化语言(如SQL)定义的查询。DM中不论是查询还是数据都具有明确的语义。近年来半结构化的XML数据的出现使DM和IR逐渐融合。*3.学科体系和相关研究领域—外延人工智能(ArtificialIntelligence,AI)AI关注知识的表示、推理和智能行为。AI中知识的形式化表示、一阶谓词逻辑(FirstOrderPredicateLogic)、贝叶斯网络(BayesianNetworks)、以及近年来的Web本体及智能信息Agent方面研究使得IR和AI相互融合。*3.学科体系和相关研究领域—外延自然语言理解(NaturalLanguageProcessing,NLP)NLP关注自然语言文本的语法(syntactic)、语义(semantic)及语用(pragmatic)分析。NLP可以分析短语结构和语义,使得IR可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词。NLP和IR天生就是融合的。NLP和IR融合的其他方面:通过上下文词义消歧(wordsensedisambiguation)来确定一个词在某个特定上下文的语义。通过一些NLP方法来获得文档中的一个语言片断(informationextraction)。通过NLP方法可以从文档集合中返回一些问题的答案(questionanswering)*3.学科体系和相关研究领域—外延机器学习(MachineLearning,ML)ML关注通过对经验的学习来提高计算机系统的性能。从标注好的例子中学习相关概念,然后进行自动分类(有监督的学习,supervisedlearning),将未标注的例子自动聚集到有意义的不同集合中(无监督的学习,unsupervisedlearning)。ML和IR融合的方面:文本分类(TextCategorization),自动层次分类自适应过滤或推荐(Adaptivefiltering/recommending),垃圾过滤(Spamfiltering),文本聚类(TextClustering),IR结果的自动聚类,层次型类别体系的自动构建*4.信息检索的相关概念(IRconcepts)信息过载(Informationoverload)“…全世界每年产生1到2EB(1EB≈1018B)信息,相当于地球上每个人大概产生250MB信息。其中纸质信息仅占所有信息的0.03%...”(Lyman&Vavian2003http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/)静态网页有上百亿,动态及不可见网页至少是静态网页的500倍。TomLandauer认为人的大脑只能存储200M信息量,一辈子只能接触6G的信息量。http://www.lesk.com/mlesk/ksg97/ksg.html*4.信息检索的相关概念(IRconcepts)Internet网站数量的增长(1996.6.~2006.3.)http://www.zakon.org/robert/internet/timeline/#2000s*4.信息检索的相关概念(IRconcepts)中国大陆Internet网站数量的增长(1997~2006)*4.信息检索的相关概念(IRconcepts)全球数字化进程加快。1998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、GPS等在内的服务或应用也产生大量文本和多媒体数据。*4.信息检索的相关概念(IRconcepts)问题:一方面,人们可以获得的信息的来源非常广泛。另一方面,人们如何快速、准确、全面地获得自己所需要的信息非常困难!信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多。用户需求的表达和理解非常困难信息的理解非常困难—自然语言文本、图片、视频信息检索是研究如何解决上述问题的一门学科,理解用户需求,提供相关结果。*4.信息检索的相关概念(IRconcepts)信息检索(InformationRetrieval)InformationRetrieval这个术语产生于CalvinMooers1948年在MIT的硕士论文InformationRetrieval(IR)从文档集合中返回满足用户需求的相关信息的过程作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问*4.信息检索的相关概念(IRconcepts)信息检索可以看成计算机科学(ComputerScience)和图书情报学(Library&Info.Science)的交叉学科。以计算机为手段,处理信息对象,和语言学、认知科学等其他学科融合。检索来自英文单词Retrieval,其本义是“获得与输入要求相匹配的输出”。和我们平时所理解的搜索意义上的检索不一样。*4.信息检索的相关概念(IRconcepts)信息检索:IR不仅仅是搜索,IR系统也不仅仅是搜索引擎。例1:返回与信息检索相关的网页——搜索引擎(SearchEngine,SE)例2:毛泽东的生日是哪天——问答系统(QuestionAnswering,QA)例3:返回联想PC的型号、配置、价格等——信息抽取(InformationExtraction,IE)例4:订阅有关NBA的新闻——信息过滤(InformationFiltering)、信息推荐(InformationRecommending)狭义的IR通常是指InformationSearch,而广义的IR包含非常多的内容(SE,QA,IE,…)。本课程介绍的是广义的IR。*DocumentsStreamUser1ProfileUser2ProfileDocsFilteredforUser2DocsforUser14.信息检索的相关概念(IRconcepts)Filtering(过滤:用户需求不变,push)*4.信息检索的相关概念(IRconcepts)用户需求(UserNeed,UN):用户需要获得的信息严格地说,UN只存在于用户的内心,但是通常用文本来描述,如查找与2006世界杯相关的新闻,有时也称为主题(Topic)。UN提交给检索系统时称为查询(Query),如2008奥运会,对同一个UN,不同人不同时候可以构造出不同的Query。Query在IR系统中往往还有内部表示。*4.信息检索系统*4.信息检索系统的组成框架*DocsInformationNeedIndexTermsqueryRankingmatch4.信息检索的相关概念——检索流程*4.信息检索的相关概念(IRconcepts)IR系统的组成部分——用户接口(UserInterface):用户和IR系统的人机接口输入查询(Query),返回排序后的结果文档(RankedDocs)并对其进行可视化(Visualization),支持用户进行相关反馈(Feedback)用户的两种任务:retrieval或者browsingIR的两种模式:pull(adhoc)和push(filtering)。Pull:用户是主动的发起请求,在一个相对稳定的数据集合上进行查询。Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进行操作,将满足用户兴趣的数据推送给用户*4.信息检索的相关概念(IRconcepts)文档(Document):检索的对象可以是文本,也可以是图像、视频、语音等多媒体文档,textretrieval/imageretrieval/videoretrieval/speechretrieval/multimediaretrieval可以是无格式、半格式、有格式的文档集合(Collection):所有待检索的文档构成的集合。也称为Repository,Corpus*4.信息检索的相关概念(IRconcepts)相关(relevant、相关度relevance)相关取决于用户的判断,是一个主观概念,不同用户做出的判断很难保证一致,即使是同一用户在不同时期、不同环境下做出的判断也不尽相同。*4.信息检索的相关概念(IRconcepts)定义“相关性”的两个角度系统角度:系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位,基于这种理解,研究的重心落在系统本身。主题相关性:检索系统检出的文档的主题即核心内容与用户的信息需求相匹配。系统角度相关并不和用户脱节。系统角度定义的主题相关性可以计算用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。用户角度定义的相关目前仍然难以计算现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,也强调考虑用户的认知因素*4.信息检索的相关概念(IRconcepts)形式上说,信息检索中的相关度是一个函数R,输入是查询Q、文档D和文档集合C,返回的是一个实数值R=f(Q,D,C)信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关度并排序(Ranking)。相关度通常只有相对意义,对一个Q,不同文档的相关度可以比较,而对于不同的Q的相关度不便比较相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等等现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖度等度量。或者说这些因子都影响“相关度”。据说谷歌用了上百种排名因子*4.信息检索与数据库检索近年来,随着XML的出现,两种检索已经逐渐融合,边界越来越不明显。*4.信息检索的相关概念(IRconcepts)文本检索本课将主要介绍面向文本对象的检索,即文本检索(textretrieval)文本是人们表达知识(论文)、交流(口语)的最常用的形式。文本可以用于描述其他媒体其他媒体形式的检索的方法往往借鉴自文本检索。信息检索的两种研究方式以计算机为中心:IR的工作主要是建立索引、对用户查询进行处理、排序算法等等以用户为中心:IR的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织*4.信息检索的相关概念(IRconcepts)文本处理(TextOperations)对查询和文本进行的预处理操作中文分词(ChineseWordSegmentation),词干还原(Stemming),停用词消除(Stopwordremoval),查询处理(Queryoperations):对经过文本处理后的查询进行进一步处理,得到查询的内部表示(QueryRepresentation),查询扩展(QueryExpansion):利用同义词或者近义词对查询进行扩展,查询重构(QueryReconstruction):利用用户的相关反馈信息对查询进行修改,文本标引(Indexing):对经过文本处理后的文本进行进一步处理,得到文本的内部表示(TextRepresentation),通常基于标引项(Term)来表示向量化、概率计算组成倒排文档进行存储*4.信息检索的相关概念(IRconcepts)搜索(Searching):从文本中查找包含查询中标引项的文本排序(Ranking):对搜索出的文本按照某种方式来计算其相关度LogicalView:指的是查询或者文本的表示,通常采用一些关键词或者标引项(indexterm)来表示一段查询或者文本。*本章小结信息检索是一门交叉学科,不仅仅是搜索信息检索中的用户需求、查询、文档、文档集、相关度概念的含义作为学科的信息检索的内涵和外延*课后思 考题 安全员b证考试题库金融学机考题库消防安全技术实务思考题答案朝花夕拾考题答案excel基本考题 信息检索的定义?信息检索中的用户需求、查询、相关度都是什么含义?信息检索和其他相关学科是什么关系?信息检索系统由哪些部分组成?各部分的功能是什么?信息检索的定义是什么?请列举几种信息检索的应用。信息检索的基本流程如何?各组成部分的功能是什么?*供研究的课题现代信息检索研究的方法论问题现代信息检索的科学体系透视可视化技术在信息检索中的应用和发展向量空间模型在网络信息检索中的应用网络信息检索模型研究和发展网络信息资源分类的国际通用性研究……
本文档为【现代信息检索ppt课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
亮仔
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:81
分类:
上传时间:2022-08-09
浏览量:0