首页 基于网页分块的主题爬虫研究

基于网页分块的主题爬虫研究

举报
开通vip

基于网页分块的主题爬虫研究基于网页分块的主题爬虫研究 余静 刘万军 (辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛 125105) 搜索引擎利用爬虫程序获得Web上的资源,Web上大量的网页具有多主题性,网页集之间往 往形成隧道,传统的爬虫以网页为单位进行爬行导致无法穿越隧道。为了提高主题爬虫的爬行效率出现了 主题预测技术,把网页分块形成更小的爬行单位是其一个重要的研究方向。本文在分析了VIPS算法和TVPS算法的基础上提出了基于网页分块技术的改进算法,此算法结合了网页的视觉特征和HTML标签,提高了分块的质量,并通过实验证明了...

基于网页分块的主题爬虫研究
基于网页分块的主 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 爬虫研究 余静 刘万军 (辽宁 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 技术大学 电子与信息工程学院,辽宁 葫芦岛 125105) 搜索引擎利用爬虫程序获得Web上的资源,Web上大量的网页具有多主题性,网页集之间往 往形成隧道,传统的爬虫以网页为单位进行爬行导致无法穿越隧道。为了提高主题爬虫的爬行效率出现了 主题预测技术,把网页分块形成更小的爬行单位是其一个重要的研究方向。本文在 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 了VIPS算法和TVPS算法的基础上提出了基于网页分块技术的改进算法,此算法结合了网页的视觉特征和HTML标签,提高了分块的质量,并通过实验证明了该算法的有效性。 主题爬虫;网页分块;主题预测;穿越隧道 近年来,实时性、个性化、社会化的专业搜索引擎得到了长足的发展。专业搜索引擎用来搜集Web资源的程序叫做主题爬虫程序,主题爬虫程序的目标是在尽量少地遍历Web的前提下,发现尽量多的与主题 相关的网页。为了避免爬行与主题无关的网页,提高专业爬虫的效率,需要对待爬行网页的主题做相关度 预测。然而,网络环境是复杂的,主题相关的网页并不都是互相链接着的,在网络上,存在一些虽然都与 主题相关,但互相之间没有链接相连的网页集。主题爬虫如果想找到更多的与主题相关的网页,就必须具 有穿越与主题无关的网页,到达另一个与主题相关的网页集的能力。这些本身与主题无关,但连接两个与 主题相关的网页集的网页就构成了隧道。隧道可分为灰色隧道(Grey Tunneling)和黑色隧道(Black Tunneling)。对于黑色隧道的穿越,具体方法见文献[1],在这里我们讨论灰色隧道的穿越。传统的主题 爬虫把单个网页作为一个整体判断其相关性,遇到不相关的网页则丢弃,因此,传统的爬虫不能穿越灰色 隧道。解决这个问题的办法是把网页切割成块,以块为单位判断其相关性。网络爬虫获取网页并分块后, 如果某块与主题相关,则提取出这些块中的链接,并赋予一个优先权值,放入到待爬行队列。这种方式与 传统的把网页作为一个整体来判断相关性的做法相比,能获得更多的与主题相关的网页,同时能抛弃从与 主题无关块中提取的链接,能有效的降低噪音链接的提取。 对于页面分块算法,有许多的研究成果。文献[2]提出了一种基于视觉特征的解析方法,称为VIPS算法,此算法利用视觉特征对页面进行解析分块,充分考虑了人们的视觉感知对网页主题获知的影响。每个 网页都用分隔条分成许多的语义块,用Doc值反映语义块之间联系的紧密程度。但缺点是启发规则太多, 规则需要人工 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 并维护,适应能力差。网页信息解析器TVPS,是由中科院计算所软件研究室开发的,并 作为“天罗”互联网信息采集与转播系统等多个项目的网页预处理模块,文献[3]提出了基本TVPS的改进算法,即把VIPS算法和HTML标签结合起来对网页进行分块,取得了较好的效果。但文中以TABLE标签直接进行分块,即一个TABLE就是一个块,这种方法未免过于笼统,未考虑某些网页中一个TABLE标签包含的信息过大,其子标签如等也包含不同主题的信息的情况,同时也没有涉及分块的位置及大小信 息。而事实上,许多网页在布局上都是把重要信息放在较中间位置,如正文等,而把不太重要的信息如相 关消息、链接导航、广告等放在网页的边缘,也就是说分块的位置对于网络爬虫抓取的网页链接的贡献是 不一样的。另外,块的大小也是一个很重要的指标,块越大越可能是正文块,越小越可能是噪音块。 为了改进以上缺点,本文提出了基于VIPS的改进算法。本算法综合利用网页的视觉特征和其HTML标签信息,以提高分块的质量。 算法思想描述如下: (1)网络爬虫将网页下载下来后,先存入本地硬盘,利用网页清洗工具如Jtidy对网页代码进行纠错及 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 化处理,然后将这个网页解析为一颗DOM树,去除