浅谈搜索引擎日志分析
时间:2012年03月19日 内容来源: 互诺科技 浏览量:0

对于网站优化来说,搜索引擎日志分析是必不可少的一块,无论你是收录上百的小型网站,还是收录上百万的大中型网站,SEO要想做得好,都必需进行科学的日志分析,日志是发生在网站服务器上的所有事件的记录,包括用户访问记录,搜索引擎抓取记录,对于一些大型网站来说,每天的日志都有好几个G大小的,我们可以使用linux命令去进行分离的,在大型网站日志文件往往是机密文件,一般人是看不到的,因为从日志里边可以分析访客趋势、地区趋势等,我们做SEO的不需要那么多数据,我们只要分析搜索引擎的抓取记录这一块就可以了,所以再大的数据量,如果经过处理后,也就不会特别大了,况且现在的硬盘这么便宜,存储日志文件还是可以考虑的。那么我们主要分析日志的什么数据呢?

1、每个搜索引擎的总体抓取量(以及趋势)

在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用DOS命令或者Linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析 时候,一定要清楚的知道蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。

2、记录搜索引擎蜘蛛的不重复抓取量

上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你才会知道问题的严重性。

3、每个目录、每个搜索引擎的抓取量

上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofollow标签等。

4、统计搜索引擎抓取的状态码

当搜索引擎抓取了你的页面后,不但抓取了你的内容,而且还会有一个抓取返回码的,这些返回码我们要记录下来,特别是一些类似301、404、500等这些状态码,我们从这些状态码中我们找出网站的一些潜在的问题,例如为什么会出现很多404页面,是程序原因,还是搜索引擎在抓取外链的时候提取错误,其实我们可以在谷歌管理员工具中看到这些数据的,里边还会提示你的错误的404页面出现在哪里,对于一些301状态码我们也要注意了,看下这些301是不是按照我们所希望的那样跳转的,网站中要尽量的少用跳转,页面在跳转的时候,往往会延长页面的加载时间,最常见的301可能就是网页URL不带“/”的跳转到带“/”的情况了,我们在网站中,要尽量的避免出现这样的情况。

5、统计搜索引擎蜘蛛来的次数、来的时间

我们可以使用一些日志分析工具,设定一个标准,例如光年日志分析工具,可以统计出每个搜索引擎蜘蛛每天来的次数,一天一共在我们网站停留了多久,有没有IP蜘蛛一天24小时都在我们网站不停的抓取,这样的蜘蛛越多越好,往往是你网站权重提升的表现。这样的数据可以每天都记录下来,在一定的时间段内,进行对比分析,看看停留的时间是不是增加了,来的次数是不是增多了,这样可以判断出网站权重是上升还是下降。

当然可以从日志里边看出的SEO指导数据还有很多,这里我暂时办列举出这么多,希望能够起到一个抛砖引玉的作用,大家可以往下思考,进行延申,在平时的SEO数据分析工作中,一定要养成分析日志的习惯,平时如果有时间,可以多看看日志文件,例如可以去大概的看下搜索引擎蜘蛛在你页面上的抓取轨迹,看看有什么规律,这对你日后的SEO工作都非常用帮助的。