背景:#EDF0F5 #FAFBE6 #FFF2E2 #FDE6E0 #F3FFE1 #DAFAF3 #EAEAEF 默认  
阅读内容

基于广度优先搜索的网络蜘蛛设计(1)

[日期:2008-09-12] 来源:  作者: [字体: ]

【摘要】  网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题。本文重点阐述了搜索引擎的 Web Spider (网络蜘蛛)的搜索策略和搜索优化措施,  提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施。

【关键词】 搜索引擎;  网络蜘蛛;  搜索策略

0 引言

近年来,随着 Internet 技术的广泛应用,传统的 通用搜索引擎,如 Google、Fast、Alta Vista 和 GoTo 等正面临巨大的挑战。挑战之一是 Web 信息资源呈 指数级增长,搜索引擎无法索引所有页面。据统计, 目前 Web 上静态页面的数量超过 40 亿个,而且这 一数量还在以平均每天 730 万个页面的速度递增。 在过去的几年中,尽管各种通用搜索引擎在索引技 术、索引数量上有所提高,但远远无法跟上 Web  本 身的增长速度,即使是目前全球最大的搜索引擎 Google,其索引的页面数量仅占 Web 总量的 40%; 挑战之二是 Web 信息资源的动态变化,搜索引擎无 法保证对信息的及时更新。近年来的研究表明,Web 上的页面平均 50  天就有约 50%的页面发生变化, 而目前通用搜索引擎更新的时间至少需要数星期之 久;挑战之三是传统的搜索引擎提供的信息检索服务,不能满足人们日益增长的对个性化服务的需要。因此如何设计网络蜘蛛(Web  Spider)来更有效率的爬 取互联网上的内容成为搜索引擎的一个首要问题。 在设计网络蜘蛛时,不仅需要充分考虑到爬取的效率和站点设置的灵活性还要确保系统的稳定性。一 个优秀的搜索引擎,  需要不断的优化网络蜘蛛的算 法,  提升其性能。本文在分析网络蜘蛛的工作原理 的基础上,  提出了一种基于广度优先搜索算法的网 络蜘蛛的实现,并对提高网络蜘蛛搜索效率的相关看法。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。[2]例如, 在上图中,A 为起始网页,属于 0 层,B、C、D、 E、F 属于第 1 层,G、H 属于第 2 层,I 属于第 3 层。如果网络蜘蛛设置的访问层数为 2 的话,网页I  是不会被访问到的。这也让有些网站上一部分网 页能够在搜索引擎上搜索到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员 权限才能访问。当然,网站的所有者可以通过协议 让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他 们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网 络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的 时候,同样需要搜索者提供相应的权限验证。

12下一页  GO
阅读:
录入:中国论文联盟

推荐 】 【 打印
相关新闻      
本文评论       全部评论
发表评论
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款


点评: 字数
姓名:
免费论文搜索


本周热门内容