做人做事,凡是都要追根究底,这样才能找到事实的真相。

解析:搜索引擎是如何抓取网页的?

上一篇 / 下一篇  2010-07-27 10:02:16 / 精华(3) / 置顶(1)


  现在网上关于搜索引擎优化的文章很多,从侧面说明了进入网站优化的个人也越来越多,在很多论坛,最热闹的就是新手问答区,最热门的也是很基础的优化知识。 由此,赵刚觉得很有必要让大家了解到搜索引擎到底是怎么来抓取网页的,这个是搜索引擎生存的根本,也是发展的基础。做网站优化和推广的时候只有抓住了最核 心的也是最本质的东西了,我们才能以不变应万变!

  其实搜索引擎先要抓取到互联网上的网页,然后索引并处理,最后将排序后的结果提供给用户,这就是搜索引擎的抓取原理。今天赵刚就先给大家阐述一下搜索引擎是如何来抓取网页的!

  搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。

  网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。本文首发赵刚的网站推广博客, 如需转载请保留相关版权!

  系统首先将要搜集的种子url放入unvisited_table,然后spider从其中获取要搜集网页的url,搜集过的网页url放入 visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table。

  搜索引擎的自动信息搜集功能分两种:

  一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

  转自赵刚博客

站内搜索:

TAG: 搜索引擎 网页解析

引用 删除 加960039182   /   2015-07-02 16:40:16
股市暴跌,你能把握住几次赚钱的机会?大家都在说:一年的盈利顶不住一次的调整。前期盈利全部还给了市场还被深套,后悔没有及时止损。现在,你不用再担心,有更好的产品可以做,现货(白银、原油、铜)国际盘,22个交易小时,双向操作,可以买涨,也可以买跌,涨跌行情都能挣钱。安排老师直接一对一指导操作,免费指导一个月并保证月收益在20%左右,第二个月开始,25%以上的月收益才会参与分成,二八分成,一个月一结算。详情请在线联系我,Q 9600.39.182
青岛老神仙的个人空间 引用 删除 青岛老神仙   /   2015-03-07 11:01:15
合理的搜索引擎,抓取合理的网页。就需要切当的文章www.qdsubacnc.com。
hklal 引用 删除 a025   /   2015-01-25 03:01:48
 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

我的栏目

日历

« 2017-10-19  
1234567
891011121314
15161718192021
22232425262728
293031    

数据统计

  • 访问量: 73078
  • 日志数: 422
  • 建立时间: 2009-03-03
  • 更新时间: 2011-10-27

RSS订阅

Open Toolbar