首页 学科新技术论文

学科新技术论文

举报
开通vip

学科新技术论文学科新技术论文—— 信息化检索及搜索引擎初探 学院: 软件学院 专业: 软件工程 年级: 2010级 班级: 5班 姓名: 欧阳文丽 学号: 201020...

学科新技术论文
学科新技术论文—— 信息化检索及搜索引擎初探 学院: 软件学院 专业: 软件 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 年级: 2010级 班级: 5班 姓名: 欧阳文丽 学号: 20102013 信息化检索及搜索引擎初探 摘要:在1993年以前,网络用户只能从某个网站的URL出发,通过其中的超链接去访问其他的网页。在网络站点较少的时代,这种穷举式的浏览 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 还勉强可以满足人们的需要。但是随着信息技术的发展,网络站点的数量急剧增多,此时使用穷举式的查询会让人们感觉在一个庞大的迷宫当中。因此,人们继续一种系统能够在短的时间内对制定的区域内的网站进行扫描,并建立起相应的文档,当用户进行查询时,能够全面、准确、快速的查询到所需要的消息。这种检索的系统就称之为搜索引擎。随着信息技术的发展,搜索引擎在信息时代所扮演的角色也越来越重要。 关键字:搜索引擎、定义、工作原理、现状、发展趋势 一、搜索引擎定义 搜索引擎收集了全世界成千上万www 主页文字信息。用户通过自动搜索程序, 如蜘蛛程序, 沿着www 的超链接对www 主页进行搜索并提交相关网站地址。因此, 我们可以把搜索引擎定义为: 它是指在Internet 上能够主动搜索、组织、并提供查询服务的一种工具。具体而言, 它的工作原理是: 利用网络搜索软件将Internet 上大量网站页面信息进行收集、集中→加工处理建成数据库→对用户提出的各种查询请求做出反应→提供用户所需信息地址。搜索引擎根据工作原理的不同, 分为全文搜索引擎和目录索引。全文搜索引擎是指在搜索框输入检索词等, 从互联网络提取各个网站信息(主要是网页文字信息) , 建立数据库, 并检索出与用户查询条件相匹配的 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 , 并按一定的顺序返回结果。这是真正意义上的搜索引擎。最具代表性的是: 国外的Google 和国内著名的百度搜索。目录索引, 指把网站分门别类的存放在相应的目录下, 用户在查询信息时, 可以选择关键词查找, 也可按分类目录逐层查找。最具代表性的是: 国内的雅虎、新浪等。 二、中文搜索引擎发展历程 从搜索引擎的供应商的变化来看,可以将中文搜索引擎的发展分成如下的三个阶段: 1.引进阶段 在互联网进入中国的前面几年,中国的几大门户网都是从国外购买英文搜索引擎的汉化版或者是直接从台湾买进中文搜索引擎。这些搜索引擎在引入的时候,缺乏统一的协调和规划,存在着重复购买的现象,如当时的中华网和263,使用的就都是台湾的“龙卷风”搜索引擎。 2.百家争鸣 由于从国外引进的搜索引擎,并不能够很好的适应国内的现状,存在着或多或少的缺陷,从1997年开始,国内的公司、大学机构纷纷开始研究中文搜索引擎的设计。比如北京爱特信开发的搜狐搜索引擎;广州网易公司开发的广州视窗;北京大学开发的天网等。 3.两家争霸 进入二十一世纪之后,国内的一些网站纷纷更新了自己的搜索引擎,2001年百度公司宣布与搜狐合作。同年,新浪宣布与百度公司合作。两家的搜索结果中都有“powered by Baidu”字样。目前,硅谷动力、中国人、广州视窗、搜狐、新浪等网站都是采用的Baidu搜索引擎,约占中文搜索市场的80%。而网易和Yahoo!都采用了Google搜索引擎。除此之外,许多中文搜索引擎都具有自己的特色与优势,比如中国人就采用了提问式搜索技术;台湾的番薯藤是最具有权威性的搜索引擎等。 三、如何有效地使用搜索引擎 众多的搜索引擎, 用户总希望能利用它们快速、有效地找到自己想要的信息。但是就目前而言, 不管搜索引擎的智能化程度有多高, 也不管它的信息面有多广, 用户的检索过程和检索技巧等对检索结果的影响是很大的。因此, 我们要想快速准确地找到自己想要的信息, 必须掌握好三个要素。 1.掌握一定的搜索引擎的使用技巧 要想找到我们所需要的信息, 掌握一定的检索技巧显得尤为重要。最基本的就是选择适当的关键词, 然后点击检索就可以查到相关信息。但是面对众多的繁杂的网络资源, 仅仅靠关键词查找是不够的,很多情况下, 我们需要借用逻辑符号(“”、+ 、- )、括号、关键字母、高级搜索等功能进行信息检索; 利用多个关键词, 关键词与关键词之间留有空格检索; 相关搜索这些方法来提高信息的查准率。 2.态度因素 在查找所需信息的过程中, 用户的心态很重要。因为网络信息的复杂性, 加上用户对检索途径的熟悉、习惯与否, 都直接影响到用户找到信息的快速、准确性。用户只有保持一种平和的、细心的、耐心的态度, 不丢弃、不放弃每个可能的相关信息搜索, 搜索、搜索、再搜索, 不断地缩小目标范围, 总能找到自己想要的信息。 3.知识因素 搜索者的知识面也间接影响到搜索结果的准确性。只有具备了一定的知识面, 用户能快速地了解其对他有无利用价值, 从而进行下一轮的搜索, 能使搜索时间变短, 继而搜索到自己想要的信息。 四、中文搜索引擎目前存在的问题 自从互联网进入中国以来,中文网站呈现爆炸式增长的趋势,这也促进了中文搜索引擎的快速发展。出现了一些质量较高的中文搜索引擎,但是不论从技术还是管理和服务商,中文搜索引擎都并不完善。目前,中国搜索引擎主要存在以下的问题: 1.缺乏统一的规划和合作 Google和百度是目前国内主要的中文搜索引擎提供商,这两个搜索引擎在数据库建设的过程中各自为政,而且这两个搜索引擎的功能相差并不大,很难看出这两个搜索引擎的特色。并且由于国内网页和网站设计缺乏统一标准,使得搜索引擎对网页的理解能力比较差,并不能准确的反映网页的内容。并且目前中国大陆采用国标码,而台湾主要采用的是大五码。经过Google和百度搜索引擎都支持用户使用简体或者繁体、简体和繁体来进行检索,但是,并没有解决其中自动转换的问题。 2.商业效益低 中国搜索引擎网站的商业效益比较低,2001年网易被纳斯达克停牌,使得原有的中国门户网三足鼎立的局面演变成了搜狐和新浪两家争霸的格局。其中,新浪作为中国门户网站的老大,其经营的效益并不乐观。2010年前两个季度的收入一直下滑。而搜狐,其发展也不理想,搜狐的股价从2000年的13.13美元跌倒2010年的1美元左右。无论是搜狐还是新浪,或者是其他的网站,如果没有足够的商 业效益,不能指定一套行之有效的盈利 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 ,那么中文搜索引擎的发展必然受到限制。 3.汉字切分的技术落后 对词的切分主要是对网络信息资源词的切分和用户检索词的切分。在英文检索中,英文 单词 英语单词 下载七年级上册英语单词表下载英语单词表下载深圳小学英语单词表 下载高中英语单词 下载 之间存在空格,所以英文的切分相对简单,但是中文的词字之间并没有分隔符,这造成了中文搜索引擎发展的一大障碍。以前,有的学者曾经研究过使用虚词作为中文词字的分割词,但是有些虚词在特定的位置又有其实际意义。比如“了解”一词中的“了”、“目的地”中的“的”和“地”等。利用虚词来切分中文词字,有非常大的误差,目前主要采用了单汉字检索和自动分词两种。其中单汉字分词是将所有的单个汉字都作为索引来进行搜索,虽然能够保证较高的检全率,但是同时会返回大量无用的结果,误检率非常的高;自动分词方法是根据一定的原则对文章中的词句进行自动分词,然后按短语或者词组进行建库,同时,使用相同的原则,对用户输入的词组进行同样的分词,然后将之与库中的词组进行匹配,从而提高了匹配的效率。 4.知识产权的立法滞后 目前,我国并没有成型的法律来规定网络的知识产权,对于网络中的侵权行为,大多采用《著作权法》中的相关明文来解决。比如:2009年发生的由于搜索引擎所引发的知识产权侵权案件。原告叶沿兵出版了《路上的感觉》一书,然后原告以发现可以通过搜狐搜索引擎搜到该作品为由,将搜狐网站告上法庭。而搜狐则认为,搜索引擎只是一个工具,并没有将原告的作品上传到该网站中,所以不应该承担法律责任。虽然,后来搜狐公司获胜,但是传统著作权法在网络这个特殊的环境中所留下的空白,也成为中文搜索引擎发展的阻力之一。 五、未来搜索引擎的发展趋势 1.多元化搜索会有不少竞争和成长的空间 搜索引擎服务从提供单一的文字、图片搜索,向提供音乐、视频、资讯、软件、文件等多元化的搜索发展,并且呈现进一步的分化。 2.个性化和更聪明的针对性搜索   根据用户自身平时使用的搜索习惯和可能从事的行业特点,能够深度理解你要搜苹果还是水果还是要搜公司,更深度理解,当你要搜一个餐馆的时候,不但给你餐馆本身的信息,还给你地图、驾车路线、餐馆评语等等信息。 3.移动搜索 手机是对人最有附着性的媒体工具,移动搜索加上一个聪明的手机,可以知道你的具体位置,知道你过去做过的很多事情,购买了什么产品,去了什么地方,还有它可以当作你的眼睛和耳朵,甚至你可以对它讲话,让它能够理解,可以帮你做翻译,做你的眼睛帮你看一个产品、一个调幅、一个人脸,告诉你这个产品哪里买会买的便宜,这个人你可能记不住他的名字了,提醒你是谁,这个搜索当它随身携带的时候,当它智能化的时候,会把整个搜索提升到一个更高的层次,移动搜索也将是未来搜索竞争最为激烈的。 结语:搜索引擎改变了二十一世纪人类的生活方式。在搜索引擎的帮助下, 网民不再需要记住复杂的网址和复杂的路径, 而只需记住搜索引擎的页面, 提交查询词即可直接找到想要找的信息。越来越多的人学会通过搜索, 从海量的互联网信息中找到和分享全人类的经验与智慧。搜索引擎不仅成为人们最常使用的互联网应用, 同时也开创了一种优秀的商业模式, 引领互联网技术与商业的发展。 参考文献: [1]陈笑辉.搜索引擎yahoo的分类体系及性能评价 中国信息导报,2009.7 [2]邱均平.信息资源网络化对知识产权制度的影响 中国信息导报,2010.5 [3]徐建华.网络搜索引擎原理、特色分析及未来发展趋势 图书情报工作,2009.8 [4]段宇峰.检索引擎的评价和利用 现代图书情报技术,2009.3 [5]陆海龙.搜索引擎的评价标准及方法研究 情报杂志,2009.9 [6]梁斌.走进搜索引擎 电子工业出版社,2007.10
本文档为【学科新技术论文】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_449746
暂无简介~
格式:doc
大小:307KB
软件:Word
页数:6
分类:工学
上传时间:2012-06-25
浏览量:19