网站服务器日志(IIS与Apache)各字段含义,及如何进行日志分析?
网站服务器日志记录这所有网站资源请求的原始数据,准确且详细,是分析网站必不可少的重要环节。想要分析日志文件,首选需要了解日志文件的格式与各个字段的意思。
IIS服务器日志:
#Software、#Version、#Date 分别是服务器程序、版本、时间。
#Fields列为日志内容各字段列说明(不同服务器配置略有差异),具体如下:
- date:日期
- time:时间,这两个字段组成资源请求详细时间,改时间通常为服务器端时间,注意,服务器采用时区可能与本地时区不一致。
- s-ip:服务器IP,资源处理服务器IP,通常是服务器本机IP。
- cs-method:请求方式,常见有GET与POST请求。
- cs-uri-stem:请求资源路径,网站根目录下的绝对路径位置。
- cs-uri-query:请求参数。
- s-port:使用端口,通常HTTP协议端口是80,HTTPS协议端口是443。
- cs-username:客户端用户名,通常为空或-。
- c-ip:客户端IP,判断唯一用户的重要依据,也是判断搜索蜘蛛爬虫真伪的依据。如何判断百度蜘蛛谷歌爬虫真伪?
- cs(User-Agent):用户代理字符串,用户使用的设备与浏览器类型,以及是否是爬虫蜘蛛程序,但此数据可模拟,需结合上面客户端IP才能准确判断是否是蜘蛛程序。
- sc-status:请求资源返回状态码,HTTP状态码,通常200为正常,301为跳转,404为资源不存在,500为服务器错误,详细网站HTTP状态码。
- sc-substatus:协议子状态,通常为0。
- sc-win32-status:Win32状态,通常为0。
- time-taken:花费时间,单位为毫秒。
- cs-version:协议版本。
- cs(Referer):请求来路,从哪个页面点击链接进入的该资源。通常如果存在该字段,可判断出搜索引擎与搜索词。
- sc-bytes:发送文件的大小,单位为字节。一般为所请求资源文件的大小。
- s-sitename:服务器站点名称,用于区分同一服务器下的多个站点。
- s-computername:服务器计算机名称。
- cs(Cookie):客户端请求Cookie。
- cs-host:客户端请求主机名。
Apache服务器日志:
与IIS服务器格式略有不同,Apache服务器日志记录通常不包含字段说明。 默认情况下单条记录(一行)通常分为5部分。分别是:请求IP与时间、请求方式与内容、请求状态与大小、请求资源来路、请求代理字符串。
- 请求IP与时间: 106.11.156.101 - - [27/Feb/2019:08:04:21 +0800] 请求客户端IP地址与时间,此时间记录包含时区标识,中间两个 - 分别为访问者的标识与身份验证,通常为空以-代替。
- 请求方式与内容: GET /373.html HTTP/1.1 请求方式与请求资源绝对路径,之后为请求协议类型。
- 请求状态与大小:200 4656 请求资源返回HTTP状态码与发送文件大小(字节)。
- 请求资源来路: http://www.example.com/ 请求资源来路或资源引用来路。
- 请求代理字符串: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36 用户代理字符串。
如何分析网站日志?
为方便可读性,通常可以使用第三方分析工具来进行分析,如不使用第三方分析工具,或无法满足需求,可将原始数据进行简单处理即可在Excel中进行统计分析。以IIS服务器日志为例:
- 用文本编辑器删除 #Software: Microsoft Internet Information Services 7.5 #Version: 1.0 #Date: 2019-02-26 00:01:39 #Fields: ,但注意保留#Fields:之后的数据。
- 将内容中的,(英文状态逗号)号全部替换为空删除掉,注意是替换为空,不是替换为空格。
- 将内容中的空格替换为,(英文状态逗号),保存。
- 将文件扩展名改为.csv(Excel的一种逗号分割符的扩展名)。
- 打开修改好后的文件,此时程序会调用Excel程序来打开,打开后先不要做分析查询处理,直接将文件另存为xls或者xlsx格式。
- 至此已经完成,可以打开最终保存的文件进行处理,可在Excel中进行分组、查询、统计、排序等各种操作,相信用好一定能满足需求。