首页 > 代码库 > 网站pv uv统计

网站pv uv统计

http://myhoop.blog.51cto.com/5556534/1367523

tomcat日志格式: http://www.cnblogs.com/anic/archive/2012/12/13/2817126.html

一,统计1.27日到2.2日的日志

?

蛋疼点:

1,天数多,机器多

先想办法列出所有要统计的压缩包

2,日志都已压缩

bzcat可以在不解压情况下查压缩内容

?

pv:

bzcat node{1,2,3,4}/ access_log.2017-02-0{1,2}*.bz2 node{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep "your keywords"|wc -l

bzcat node{1,2,3,4}/ access_log.2017-02-0{1,2}*.bz2 node{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords"|wc -l

?

?

uv:

蛋疼点: X-Forwarded-For对应用户真实ip,日志|分割,从日志看,有些|分割第一项有2个ip,有些日志条目有1个ip. 解决:先按|awk过滤,再按,过滤,过滤出第一列,之后去重,然后后统计.

bzcat node{1,2,3,4}/access_log.2017-02-0{1,2}*.bz2 java{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords "|awk -F ‘|‘ ‘{print$1}‘|awk -F ‘,‘ ‘{print $1}‘|sort|uniq -c|sort -rn|wc -l

bzcat node{1,2,3,4}/access_log.2017-02-0{1,2}*.bz2 java{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords "|awk -F ‘|‘ ‘{print$1}‘|awk -F ‘,‘ ‘{print $1}‘|sort|uniq -c|sort -rn|wc –l

网站pv uv统计