扫描关注网站建设微信公众账号

微信二维码

当前位置:济南网站优化 > 技术洞察 > SEO > 常见的搜索引擎蜘蛛抓爬网站的方法和规则

常见的搜索引擎蜘蛛抓爬网站的方法和规则

时间:2019-12-26•15:08:23文章来源:百度蜘蛛抓取规律文章作者:搜索引擎蜘蛛的工

  爬行器的爬行策略一般面临三个方面:数据量大、更新速度快、页面动态生成快。这三种网络特性使得爬虫的抓取策略难以实现。我们已经强调了每日更新、定期更新和使用伪静态页面的重要性。百度优化再次提醒站长们在制作网站时要注意这一点。我们今天讨论了爬行web页面的爬行器,并希望更深入地为web管理员提供共享。

蜘蛛如何抓取内容

百度蜘蛛第一次爬白名单的网站或一些信任非常高的网站和页面(例如:一些高权重网站和网站主页,这里不包括新网站,新网站的蜘蛛有一个评估期),当爬这些页面的内容发现一些其他页面的链接。爬行器将链接保存在自己的数据库中,然后按顺序爬行页面。

1. 蜘蛛抓取网页的规则:

对于爬行器来说,web页面的权重越高,可信度越高,爬行的频率就越高,比如站点的主页和内部页面。爬行器首先抓取站点的主页,因为主页的权重更高,而且大多数链接都指向主页。然后爬行通过网站的主页的内部页面,不是所有的蜘蛛都会爬行。

搜索引擎认为对于一般的中小型网站来说,三层就足够容纳所有的内容,所以爬行器经常抓取前三层的内容,而超过三层的内容爬行器认为内容不重要,所以不经常抓取。

蜘蛛抓取

2、怎么看蜘蛛抓?

通过iis日志可以看到蜘蛛爬过的内容,iis日志中有百度蜘蛛、谷歌蜘蛛等。根据对iis日志、爬行器的类型、获取时间、获取的页面、获取内容的大小和返回的页面代码的分析,200表示成功获取,404表示不存在的页面。

百度抓取的规则如何把握:

1)深度优先策略:最基本的方法是按照从低到高的顺序访问下一层的web链接,直到不能再往下访问为止。爬虫程序在完成爬行分支以进一步搜索其他链接之后,返回到前面的链接节点。当所有链接都被遍历后,爬行任务就结束了。这种策略更适合垂直或站点内部的搜索,但是对于页面内容更深层次的爬行站点可能会导致巨大的资源浪费。

2)广度优先策略:根据页面内容目录的深度抓取页面,先抓取浅目录层次的页面。当同一层次的页面爬行完成后,爬虫再深入到下一层继续爬行。该策略可以有效地控制页面的爬行深度,避免了遇到无限深的分支时页面无法停止爬行的问题。实现方便,不需要存储大量的中间节点。缺点是需要很长时间才能爬到具有深度目录级别的页面。

3)优先搜索:该策略根据一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的相关性,选择一个或多个评价最好的URL进行抓取。它只访问被web分析算法预测为“有用”的web页面。一个问题是爬行器爬行路径中的许多相关页面可能被忽略,因为最佳优先策略是局部最优搜索算法。因此,应结合最佳优先级的具体应用加以改进,从而跳出局部最佳。

【结论】在蜘蛛抓取的过程中,我们还需要了解搜索引擎是如何工作的。搜索引擎爬虫的工作原理分为抓取、过滤、索引和排序四部分。
 

往期标题:

网站收录、排名和权重之间的关系要理一理啊!

网站内页不收录,是什么原因?有什么解决办法?

外链是什么?外链的四种形式如何运用?

 

上一篇:网站收录排名和权重之间的关系要理一理啊!

下一篇:被恶意做成桥页以及对网站的影响如何解决?

文章关键词
搜索引擎
百度蜘蛛
网站抓取
蜘蛛
蜘蛛爬取