网络爬虫搜索引擎信息检索论文

网络爬虫搜索引擎信息检索论文网络爬虫搜索引擎信息检索论文网络爬虫论文:搜索引擎中网络爬虫技术研究【中文摘要】随着Internet技术的迅速发展,Web信息呈指数增长,搜索引擎已经成为人们进行信息获取必不可少的工具。目前大多数的搜索引擎提供的服务还不能令用户满意,如何利用有限的系统资源搜集尽可能多、尽可能重要的网页已经成为研究的热点。本文设计并实现了一个网络爬虫系统,并对其中的核心算法做了深入探讨。论文分析了搜索引擎的工作原理和体系结构;研究了网络爬虫的搜集策略,提出了一种改进的基于网页深度和带权重的反向链接相结合的搜 ...

网络爬虫搜索引擎信息检索论文网络爬虫论文:搜索引擎中网络爬虫技术研究【中文摘要】随着Internet技术的迅速发展,Web信息呈指数增长,搜索引擎已经成为人们进行信息获取必不可少的工具。目前大多数的搜索引擎提供的服务还不能令用户满意,如何利用有限的系统资源搜集尽可能多、尽可能重要的网页已经成为研究的热点。本文设计并实现了一个网络爬虫系统,并对其中的核心算法做了深入探讨。论文分析了搜索引擎的工作原理和体系结构;研究了网络爬虫的搜集策略,提出了一种改进的基于网页深度和带权重的反向链接相结合的搜集算法,并对该算法做了可行性验证;设计并实现了网络爬虫的关键算法,包括多线程的网页抓取,URL的去重,网页的调度等。此外,针对中文搜索引擎的特点,采用汉字编码的转换,实现了不同编码网页的统一存储;采用DNS解析缓存机制,使得信息搜集的速度明显加快; 采用增量抓取机制,避免了因重复搜集未变化的网页带来的资源和时间耗费。实验结果表明,该网络爬虫的设计较好的满足了搜索引擎对海量数据处理的要求。【英文摘要】Along with the development of Internet and exponential growth of web information, search engine has become an indispensable tool for people to fetch information. For most search engines, how to use the limit system resources to collect pages effectively and efficiently has come to be a hot area in this search field. This paper explores a web crawler system, and does a deep study on the core algorithms of the system.This paper firstly analyzes the principle and the architecture of search engine, discusse... 【关键词】网络爬虫搜索引擎信息检索【英文关键词】Web Crawler Search Engine Information Retrieval 【索购论文全文】138113721 139938848 即付即发【目录】搜索引擎中网络爬虫技术研究摘要 3-4 Abstract 4 第一章绪论 8-14 1.1 引言 8 1.2 国内外研究现状 8-11 1.2.1 搜索引擎的发展史 8-10 1.2.2 国内搜索引擎的发展 10-11 1.3 课题研究意义 11 1.4 论文的研究内容 11-12 1.5 论文结构 12-14 第二章搜索引擎基础 14-36 2.1 HTML和HTTP基础 14-16 2.2 搜索引擎概述 16-17 2.3 网络爬虫技术概述 17-18 2.4 网络爬虫设计涉及的技术 18-24 2.4.1 DNS解析扩展 18-20 2.4.2 并行存取 20-21 2.4.3 机器人排斥标准 21-23 2.4.4 避免网页的重复收集 23 2.4.5 搜集友好性 23-24 2.4.6 网络的动态性 24 2.5 预处理子系统 24-32 2.5.1 索引网页库 24-26 2.5.2 网页净化 26-27 2.5.3 网页消重 27-28 2.5.4 内容抽取 28 2.5.5 中文分词技术 28-30 2.5.6 索引建立 30-32 2.6 查询服务子系统 32-34 2.6.1 查询服务的系统结构 32-33 2.6.2 检索器 33-34 2.7 本章小结 34-36 第三章网络爬虫的搜集策略 36-48 3.1 网页重要程度的指标 36-37 3.2 网页的搜集策略 37-43 3.2.1 基于立即回报价值评价的搜索策略 37-42 3.2.2 基于未来回报价值评价的搜索策略 42-43 3.3 改进的网页搜集策略 43-45 3.3.1 理论基础 43-45 3.3.2 算法实现 45 3.4 本章小结 45-48 第四章网络爬虫的系统设计 48-78 4.1 网络爬虫的架构 48-49 4.2 网络爬虫的核心算法设计 49-55 4.2.1 网页多线程抓取机制 49-50 4.2.2 网页调度算法 50-51 4.2.3 URL去重机制 51-53 4.2.4 汉字的码制转换 53-55 4.3 网络爬虫的主要数据结构 55-61 4.3.1 元数据 55-56 4.3.2 网页内容 56-57 4.3.3 URL 57-59 4.3.4 链接结构 59 4.3.5 DNS缓存 59-61 4.4 网络爬虫的详细功能设计 61-65 4.4.1 网页抓取控制器 61-62 4.4.2 URL提取器 62-64 4.4.3 URL解析器 64 4.4.4 优先级计算器 64-65 4.5 网页的维护与更新 65-72 4.5.1 网页的变化模型 65-68 4.5.2 对网页变化进行估计 68-70 4.5.3 数据更新策略 70-71 4.5.4 更新算法 71-72 4.6 实验与结论 72-77 4.6.1 试验设备情况 72 4.6.2 性能测试 72-76 4.6.3 用户接口界面 76-77 4.7 本章小结 77-78 第五章总结与展望 78-80 5.1 论文总结 78 5.2 展望 78-80 致谢 80-82 参考文献 82-86 读研期间研究成果 86

                    本文档为【网络爬虫 搜索引擎 信息检索论文】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

网络爬虫 搜索引擎 信息检索论文

你可能还喜欢

网络爬虫搜索引擎信息检索论文