搜索引擎蜘蛛是怎样抓取网页的,如何吸引更多蜘蛛!

痕风 2019年11月11日09:12:20
评论
113

对于网站的seo人员来说,搜索引擎蜘蛛都一定有所了解,因为在进行网站优化时都需要研究搜索引擎蜘蛛的工作原理。搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统,当然这只是基本的4个部分!

搜索引擎蜘蛛是怎样抓取网页的,如何吸引更多蜘蛛!

什么是搜索引擎蜘蛛,什么是爬虫程序?

搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上!比较好理解。

搜索引擎蜘蛛是怎样抓取网页的呢?

发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环

首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。搜索引擎蜘蛛几乎是24小时不休息的,那么蜘蛛下载回来的网页怎么办呢?这就需要到了第二个系统,也就是搜索引擎的分析系统。

搜索引擎蜘蛛是怎样抓取网页的,如何吸引更多蜘蛛!

一、搜索引擎蜘蛛简介

搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。

① 爬行原理

搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。

搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。

搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。

② 如何爬行

为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。

同时,分布爬行还分为两种模式:深度优先和广度优先。

深度优先:沿着发现的链接一直爬行,直到没有任何链接。

广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。

③ 蜘蛛必遵守的协议

搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。

搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。

④ 常见搜索引擎蜘蛛

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

有道蜘蛛:YoudaoBot,YodaoBot

搜狗蜘蛛:Sogou News Spider

必应蜘蛛:bingbot

Alexa蜘蛛:ia_archiver

二、如何吸引更多搜索引擎蜘蛛

互联网信息爆炸,搜索引擎蜘蛛不可能将所有网站的所有链接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我们网站上来爬行变得非常重要。

① 导入链接

无论是外部链接,还是内部链接,只有有导入,才能被搜索引擎蜘蛛知道该页面的存在。所以,多多做外链建设有助于吸引更多蜘蛛来访。

② 页面更新频率

页面更新频率越高,搜索引擎蜘蛛来访的次数也会越多。

③ 网站和页面权重

整个网站的权重以及某一页面的权重(包括首页也是页面)影响着蜘蛛的来访频率,权重高、权威性强的网站一般都会增加搜索引擎蜘蛛的好感。

④ 与首页的距离

首页>一级目录>二级目录>三级目录>四级目录…很显然,目录越深蜘蛛来访的几率和次数就会越少,因为一般外链都是指向首页的,首页再向下爬行,只会越来越少。

这里给大家的建议是,做外链的时候,不要只做首页外链,偶尔做一做栏目和聚合页面的外链也还是不错的哦~

有些时候,URL短,蜘蛛可能也会觉得这个链接的权重哦,所以,最好只做一级栏目,然后就是文章页面。

搜索引擎蜘蛛是怎样抓取网页的,如何吸引更多蜘蛛!

三、搜索引擎蜘蛛地址库

搜索引擎蜘蛛有一个专门的地址库,用来存放已经被发现的URL(已被抓取和未被抓取的都算,只要是被发现的URL都算),这样就不会出现重复爬行和抓取页面的情况了。

① 地址库URL来源

蜘蛛抓取的页面中发现的新的URL;

站长后台自主提交的URL;

站长后台提交的XML地图中的URL;

站长后台提交的网站URL;

② 对于未被抓取的URL

对于未被抓取的URL,不管是以什么方式获取的,哪怕是搜索引擎蜘蛛自己发现的,也会先放入地址库中,然后在做统一抓取。

四、页面数据存储

搜索引擎蜘蛛将抓取的页面数据会存入搜索引擎的原始页面数据库中,其实,就可以理解为快照中看到的页面数据,和用户看到的是一样的,每一个页面的URL地址都有一个唯一的编号。

五、复制内容检测

搜索引擎蜘蛛在爬行的过程中,会进行一定程度的复制内容检测。如果是权重低的网站上,发现了大量的转载或抄袭内容时,可能会停止爬行,这些页面可能也会不抓取与收录。

但并不是说网站就不能转载,像一些权重很高的平台,哪怕是转载了一篇旧闻排名也可以很好,因为搜索引擎蜘蛛可能会觉得,就算是旧闻可能也是高质量的吧。

搜索引擎蜘蛛是怎样抓取网页的,如何吸引更多蜘蛛!

作为SEO优化人员则要让蜘蛛尽量的抓取到网站的核心内容,那么影响到搜索引擎抓取网站的因素有哪些呢?

1、网站权重

网站权重越高,搜索引擎蜘蛛爬行的深度越深,抓取的页面内容也就相对越多了,搜索引擎对权重高的网站信任度很高,收录的网站页面也更多。

2、网站更新频率

搜索引擎的蜘蛛每次爬行抓取网站的时候,都会把网站的数据储存起来,下一次爬行的时候发现和第一次的抓取的数据是一样的,则说明网站没有更新,蜘蛛多次爬行未更新的网站,肯定会降低网站爬行的频率,如果网站定期更新,每次蜘蛛都能抓取到新鲜的有价值的内容,搜索引擎蜘蛛的体验度就越高,蜘蛛就会频繁的抓取网站数据。

3、外链内链和URL结构

网站优化的时候不管是外部链接,还是内部相互链接,都是会被搜索引擎的蜘蛛抓取到的,蜘蛛会根据URL的结构开始爬行抓取,结构目录越短的爬行体验越好,高质量的外链能增加搜索引擎蜘蛛爬行的深度

4、网站首页距离

网站首页是网站权重最高的地方,而且用户访问和蜘蛛的抓取也是最频繁的,做外链建设的时候通常也是发的首页地址,距离首页越近的距离,搜索引擎的蜘蛛爬行的几率也就越大,页面的权重也就越高。

继续阅读
weinxin
痕风的起点
专注于互联网资讯、中央空调、Windows、wordpress、建站技术、软件应用等相关网络资源的分享。
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: