SEOer必学网站分析神器(第三节课)

我们努力奋斗是为了拥有很多的资本,来对抗未来未知的困境。

今天继续给大家讲解百度站长工具其他功能作用,在这多谢各位同学的持续关注,等后续评论功能开通后,大家交流起来就方便多,我会继续努力,有任何SEO疑问,可以给我留言。

由于接下来讲解的版块功能比较重要,在SEO实际应用中也是久居榜首,所以,请各位同学耐心看完,我尽量控制文章篇幅长度。

百度站长工具

网页抓取

Robots

抓取频次

抓取诊断

抓取异常

Robots:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

使用说明

1、robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。

2、您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。

3、Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。

对于这个大家应该不陌生了,不过在这里也有几点需要大家注意:

第一点:写完后,一定要在百度站长工具中进行测试,别错误的把一些重要页面给屏蔽了;

第二点:写法上的优化改进,变通一下,可以让我们网站更安全,例如:

禁止搜索引擎抓取我们后台地址

最常见的写法:

User-agent: *

Disallow: /admin/

换一种思维,换一种写法:

User-agent: *

Disallow: /adm*

robots测试

注:这样就让一些人,不能清楚的知道我们后台的URL是什么了。在这里要注意下,你其他页面的URL,千万别含有 “adm”也就是后台地址,要跟其他URL要有区别,不然你这样操作,会有严重的问题的,切记。

 

抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

该功能很重要,每天必看的一个功能,该功能反应服务器最近的一些情况,如果服务器出了什么问题,那对SEO来说,可是灾难性的打击:

接下来,给大家讲解下,平时都需要注意哪些问题:

抓取频次

在这里主要注意下,如果抓取频次过高或过低,我们该怎么办,在上图中,我已经打了箭头,大家可以直接去百度后台进行查看,在这就不多说。总体来说,当然是越多越好,这边网站的页面才有可能完全被百度爬取一遍。

抓取时间,可以说是直接反应服务器、CDN等是否有问题,所以,这个趋势图应该必须每天都要关注一次,如下图:

抓取时间

抓取时间,一定要稳定在1000毫秒以内,超过这个时间,就有问题,上图中有一个很突出的点,那天是因为服务器被攻击,那天后权重就下降,不过还好,在这几天权重又回升了。

当然,这个抓取时间的数据,并不是实时的,一般,要等到第二天才能看到,其实,这种突发事件,根本不用等看这数据,我们就知道了。

看这个数据,主要是如果有那几天或连续几天,抓取时间都在1000-2000之间,那我们技术是很难发现的,那这个时间,我们就需要跟技术去核实下,最近服务器出现什么问题了,这个才是重点。

抓取诊断:抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。

该功能,可以说是当网站遇到问题后,必须要来使用的一个工具,例如,网站索引量下降,那这个页面类型为什么下降?查了其他工具也没分析出来,那这个时候可以通过抓取诊断,多抓取几个该页面类型的页面,可以从中发现,是不是抓取时间有问题,是不是页面内容有问题(用户与蜘蛛看到的内容不一致),是不是有些内容蜘蛛是看不到等等。

抓取诊断工具的使用,也有以下技巧:

1、当有新页面或是活动页面,一个很重要的页面时,我们可以用抓取诊断,来对该页面进行抓取,这样可以加快蜘蛛来爬取该页面。(同理,一些急需删除的404页面,或者一些重要的栏目等等);

2、如何判断页面抓取时间长(如果做了CDN,是否是CDN有问题),如下图:

抓取诊断测试1

抓取诊断测试2

如何判断,就看上图中的“提交时间”和“抓取时间”,把这两个时间进行对比,如果时间很长(例如有十几分钟,甚至半个小时)才能抓取成功,那你网站肯定有问题。

遇到这个问题,可以直接跟技术反馈,技术会查清楚原因。我以前遇到过,都是CDN与蜘蛛之间的问题,这个要解说起来就复杂多了。

3、如果换服务器了,这个“抓取诊断”功能,也是非常好用的。当服务器换成功后,就用这个功能,从新抓取每个二级域名的首页即可,发现IP不对,就点“报错”,多抓取几次,就会改过来的。

4、该功能,也可以查看隐藏内容。如果查看抓取结果,与我们实际页面看到的不一样,那么就要引起注意了。当然了,一般都不会不一样。

5、抓取诊断工具常见错误类型解析,这个内容,大家可以直接去百度抓取诊断功能下面的介绍去了解下。

抓取异常:Baiduspider无法正常抓取,就是抓取异常。

抓取异常对网站有哪些影响?

对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

一、网站异常

网站异常

1、dns异常

  当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

2、连接超时

  抓取请求连接超时,可能原因服务器过载,网络不稳定

3、抓取超时

  抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足

4、连接错误

  无法连接或者连接建立后对方服务器拒绝

二、链接异常

链接异常

1、访问被拒绝

  爬虫发起抓取,httpcode返回码是403

2、找不到页面

  爬虫发起抓取,httpcode返回码是404

3、服务器错误

  爬虫发起抓取,httpcode返回码是5XX

4、其他错误

  爬虫发起抓取,httpcode返回码是4XX,不包括403和404

总结:网站异常,比较容易解决,直接找技术就可以了;在我们做SEO,最重要的就是链接异常,在这4个链接异常错误中,最常见的就是第2和第3个,第3个,也比较好说,直接找技术;对于第2个,就需要我们自己先找原因,在去找技术进行解决。

遇到第2个原因,首先根据上面的404URL,看看是哪个页面类型的错误比较多,在看看最近有没有什么项目上线或改动之类的,如果找不到什么原因,可以把相关404URL,提供给技术,让技术进行查找下原因。

如果404的页面比较少,可以多观察几天,看看后续还会不会出现。有的时候就不知道哪冒出来的404页面,但如果404页面突然增多,那就得查找原因了。

 

=====这个时段的SEOer是“阅读者和分享者”,分享我的所知,收获我所不知====

如果你觉得此文章能够帮您解决问题,您可以点击右侧百度分享,让您的更多好朋友能够学到更多有关SEO知识的技巧。

作者:SEOiit@seo顾问 上海seo顾问修订 2017-09-19

SEOiit(企业seo顾问),专门研究百度seo(搜索引擎优化)技术,让更多喜欢seo的朋友,能从中学习有关seo知识,理解搜索引擎优化真谛 。

本文伊利诺SEO研究中心版权所有,未经批准转载必究。

 

您的关注,就是我最大的动力

微信关注

喜欢就分享给你的朋友:

共有 0 条评论

Top