(编辑:jimmy 日期: 2024/12/31 浏览:2)
网站日志是什么,引用百度百科的定义“网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。”通过这个定义可以了解到网站日志记录了最全的网站运行信息,主要包括访客信息(比如访客ip、用什么浏览器、操作系统、访问时间等等)、蜘蛛对网站的抓取情况(抓取了哪些目录、都有哪些蜘蛛等等)、运行错误信息(主要是看一些http状态码)。
那这么多信息,我们需要重点关注的有哪几个点呢?
一、蜘蛛抓取情况
1、都有哪些蜘蛛来访问
看一下主流的蜘蛛是否有访问网站,如果没有的话,可能是被网站屏蔽了,可以检查下网站的robots文件设置。
2、抓取了哪些目录
统计蜘蛛对网站目录的抓取情况,网站各层级目录是否抓取正常,一些需要重点推广的目录是否有抓取,如果没有抓取的话则需要对网站内链进行调整或者增加外链,提升栏目权重,引导蜘蛛抓取。另外,蜘蛛可能会抓取一些无意义的目录,比如我们不希望搜索引擎了解的信息,这时候就可以把这些目录屏蔽掉。
3、抓取了哪些页面
统计蜘蛛对网站页面的抓取情况,通过一段时间的观察你会发现蜘蛛经常抓取的一些页面,分析蜘蛛为什么喜欢这些页面,这些页面跟其它页面相比有什么不同,有没有其它页面可以借鉴的地方。此外,还可以通过分析页面抓取情况,了解到网站的一些问题,比如重复页面问题、url规范化问题等等。
4、蜘蛛访问次数、停留时间、抓取量
蜘蛛频繁访问网站,说明喜欢网站,经常来看看网站内容是否有更新,对网站来说是一件好事。如果十天半个月才来一次,那网站内容可能得更新勤快点了,另外还要多增加一些外链,引导蜘蛛访问网站。停留时间长短可以反映蜘蛛对网站的喜欢程度,需要注意的一点是,如果停留时间长,但是抓取量低的就有问题了,可能是蜘蛛对网站内容抓取困难,或者网站内容质量偏低导致的。这三个指标要综合起来看,才会得到比较有价值的信息。
二、http状态码
主要关注的有404、500、302之类的。404就不用说了,最好定期整理死链接,并提交到站长平台。如果经常出现500,可能是服务器的问题,比如内容太多,服务器无法满足需求,超负荷运转了,就会出现超时、无法访问的情况。302是暂时重定向,这个要具体看下是什么问题,搜索引擎比较喜欢301,如果可以的话就做成301的。
三、网站安全情况
通过日志分析,还可以及时了解到网站是否安全,像作者本人优化的一个站点,是通过日志分析才发现被挂了黑链的。分析日志的时候如果发现一些不存在的目录,或者一些奇怪的页面,就要仔细去分析一下,很可能就是有问题的。
以上就是作者本人在网站日志分析方面的一些心得体会,希望能够帮助到大家。网站日志分析是需要长期坚持的工作,一朝一夕可能发现不了问题,贵在坚持。
题外话:网站日志分析肯定少不了日志分析工具,该如何选择日志分析工具呢,个人认为主要还是得用着顺手的,一些主流的日志分析工具基本都可以满足需求,工具不分好坏,各有千秋,我就比较喜欢金花跟光年一块用,各取所长嘛。