nginx-Server日志Log浅析
accesslog是http请求server生成的日志,能够记录每一次请求的相关信息,分析accesslog可以通过另一角度了解网站的运营情况,现在基本都是nginx做server或者做接入,就以nginx为主整理下
官方文档地址:http://nginx.org/en/docs/http/ngx_http_log_module.html 这个任何时候还是官方文档好啊!
以nginx默认的日志格式为例:
$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent"
各字段的含义分别是:
$remote_addr 请求者IP
$remote_user HTTP授权用户,如果不使用Http-based认证方式,其值为空
[$time_local] 服务器时间戳
“$request” HTTP请求类型(如GET,POST等)+HTTP请求路径(不含参数)+HTTP协议版本
$status 服务器返回的状态码(如200,404,5xx等)
$body_bytes_sent 服务器响应报文大小,单位byte
“$http_referer” referer字段值
“$http_user_agent” User Agent字段
其他的还有很多的字段,不同版本的也有差异,这个详情参考对应的官方文档
举个例子:
101.226.166.254 - - [21/Oct/2013:20:34:28 +0800] " GET /movie_cat.php?year=2013 HTTP/1.1" 200 5209 "http://www.baidu.com" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MDDR; .NET4.0C; .NET4.0E; .NET CLR 1.1.4322; Tablet PC 2.0); 360Spider"
下面我们来说说这一行记录的意思:
101.226.166.254:(用户IP)
[21/Oct/2013:20:34:28 +0800]:(访问时间)
GET:http请求方式,有GET和POST两种
/movie_cat.php?year=2013:当前访问的网页是动态网页,movie_cat.php即请求的后台接口,year=2013为具体接口的参数
200:服务状态,200表示正常,常见的还有,301永久重定向、4XX表示请求出错、5XX服务器内部错误
5209:传送字节数为5209,单位为byte
“http://www.baidu.com”:refer:即当前页面的上一个网页
“Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MDDR; .NET4.0C; .NET4.0E; .NET CLR 1.1.4322; Tablet PC 2.0); 360Spider”: agent字段:通常用来记录操作系统、浏览器版本、浏览器内核等信息
常见的数据统计及分析
接口请求频次:分接口、按天和小时分别统计。了解网站的运行情况,每个接口的请求频次,用户的行为习惯等。
响应时间:一天的平均响应时间、分接口的平均响应时间、分接口按小时统计平均响应时间。响应时间过长的请求可能说明服务性能上存在缺陷,就需要对相应的接口进行优化了。
异常分析:状态码非200的请求、响应时间超过一定域值的请求。大量的404不利用SEO,应该尽量避免。
具体参数统计:对于动态页面,一个接口通常带有多个参数,其中某个或者某几个参数特别重要,可以进一步细化,产生接口对应的参数的统计结果
ip来源的统计:可以统计出网页访问的ip来源,进一步通过ip定位,可以产生网站按地域的访问情况,同时对ip的统计,也可以对一些可能的攻击或者黑客行为进行识别。
蜘蛛抓取情况分析:搜索引擎的蜘蛛通常会设置agent字段,通过分析agent字段,可以得到网站一天被百度、谷歌等搜索引擎抓取的次数,以及哪些网页经常被spider爬过,这也是SEO的基础。
以下列举常用的日志分析命令
根据状态码进行请求次数排序
cat access.log | cut -d '"' -f3 | cut -d ' ' -f2 | sort | uniq -c | sort -r
或者使用awk:
awk '{print $9}' access.log | sort | uniq -c | sort -r
上例显示有704次404请求,接下来是如何找到这些请求的URL
awk '($9 ~ /404/)' access.log | awk '{print $7}' | sort | uniq -c | sort -r
接下来考虑如果找到这些请求的IP地址,使用命令:
awk -F\" '($2 ~ "/wp-admin/install.php"){print $1}' access.log | awk '{print $1}' | sort | uniq -c | sort -r
输出样例:
php后缀的404请求(通常是嗅探)
awk '($9 ~ /404/)' access.log | awk -F\" '($2 ~ "^GET .*\.php")' | awk '{print $7}' | sort | uniq -c | sort -r | head -n 20
按URL的请求数排序
awk -F\" '{print $2}' access.log | awk '{print $2}' | sort | uniq -c | sort -r
url包含XYZ:
awk -F\" '($2 ~ "ref"){print $2}' access.log | awk '{print $2}' | sort | uniq -c | sort -r
查看日志中访问次数最多的前10个IP
cat access_log |cut -d ' ' -f 1 |sort |uniq -c | sort -nr | awk '{print $0 }' | head -n 10 |less
查看日志中出现100次以上的IP
cat access_log |cut -d ' ' -f 1 |sort |uniq -c | awk '{if ($1 > 100) print $0}'|sort -nr |less
查看某一天的访问量
cat access_log|grep '12/Nov/2012'|grep "******.htm"|wc|awk '{print $1}'|uniq
查看访问时间超过30ms的url列表
cat access_log|awk ‘($NF > 30){print $7}’|sort -n|uniq -c|sort -nr|head -20
列出响应时间超过60m的url列表并统计出现次数
cat access_log |awk ‘($NF > 60 && $7~/\.php/){print $7}’|sort -n|uniq -c|sort -nr|head -100
统计/index.[html]页面的访问uv
grep "/index.html" access.log | cut –d “ ” –f 4| sort | uniq | wc –l
PV
grep "/index.html" access.log | wc -l
当然如果访问量特别大的情况下,用文本accesslog文件就不太好了,太浪费io了,nginx本身提供gzip压缩的形式。
在nginx1.7以后nginx提供发送udp-Log请求到日志服务器,后续可以有专门的服务来处理这个,这个稍后会整理发布一套!
nginx+go+kafka+elk来分析对应的日志