分类: 网络与安全
2014-12-30 14:32:52
最近维护的网站老是有搜索引擎来恶意访问,搞我们网站打开很慢,OMG老总发话了,必须要搞定。
曾经在nginx.conf文件中做过滤,but这样做过,但是会影响收录,纠结啊........
if ($http_user_agent ~* "Gecko|YoudaoBot|baiduspider|Googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|robozilla|msnbot|MJ12bot|NHN|Twiceler"){
return 403;
}
发现了个日记分析工具,感觉挺好用的,但是我的问题还是没有解决,难道叫我屏蔽IP吧,可能需要这样做。
下面让我们挖掘GoAccess,good jobs............
GoAccess简介
GoAccess是运行在Unix系统终端,开源、实时分析Apache日志(其实也能够分析Nginx日志)并且能够动态呈现的软件。它为系统管理员提供了一个快速、有价值的HTTP统计,动态的可视化的服务器报告。
作用
GoAccess的工作方式是,它将解析众所周知的Apache访问日志文件 access log,GoAccess通过解析日志收集的数据,将会显示它的控制台或某个终端。收集到的信息或生成的报告将显示给在视觉、交互窗口的系统管理员用户。报告包括:
综合统计
访客排行榜
请求文件排行榜
请求的静态文件排行榜,如图片、JS文件、CSS文件等
访问来源
404页面
访问者的操作系统
访问者的浏览器
浏览器和蜘蛛(搜索爬虫)
主机,反向DNS,IP位置
HTTP状态码
推介网站
搜索关键词
显示时不同的配色方案
无限制日志文件的大小(决定了GoAccess的打开速度)
GoAccess主页
GoAccess命令
#下载AoAccess安装包
wget
#解压文件
tar zxvf goaccess-0.4.2.tar.gz
cd goaccess-0.4.2
#启动ip归属地查询和utf8编码格式支持
./configure –enalbe-geoip –enable-utf8
make
make install
用法介绍
GoAccess的基本语法如下:
goaccess [ -b ][ -s ][ -e IP_ADDRESS][ - a ] <-f log_file >
goaccess -b access.log
参数说明:
1) -f – 日志文件名
2) -b – 开启流量统计,如果希望加快分析速度不建议使用该参数
3) -s – 开启HTTP响应代码统计
4) -a – 开启用户代理统计
5) -e – 开启指定IP地址统计,默认禁用
用法示例:
最简单、常用的命令就是直接调用goaccess命令
goaccess –f access.log
简单操作命令:
1 + O
2 + O
3 + O
.....................................
等
显示HTTP响应代码、用户代理、流量消耗(产生完整、全面统计数据的使用方式)
goaccess –f access.log –s –a –b
goaccess支持linux管道,我们可以将日志文件预处理后,再交给goaccess去分析。
zcat access.log.1.gz | goaccess
Aoaccess去分析已经打包压缩好的日志文件或者干脆分析目前下所有日志
zcat access.log* | goaccess
如果需要分析某天的日志,例如2012年9月号8那天的日志,我们让linux管道命令。
sed -n ‘/08\/Sep\/2012/,$ p’ access.log | goaccess -s –b
低优先级运行GoAccess的方式
nice -n 19 goaccess -f access.log -s -a -b
分析从9月1号到9月30号的日志
sed -n ‘/1\/Sep\/2012,/30\/Sep\/2012/ p’ access.log | goaccess -s –b
调用本地的goaccess程序来分析服务器上的日志(远程分析nginx log)
ssh 'cat /www/nginx/logs/access.log' | goaccess -s -a -b
但是如果你在SecureCRT工具下使用可不行哦,good luck.....
每天把日志分析结果通过邮件发送给boss和研发,是不是省去自己写脚本的时间了?
下面是goaccess安装步骤,我也是从其他地方抓取的,安装很简单,网上一搜一大把
RedHat或centos,使用yum:
yum install goaccess
GoAccess有两种使用方法,一种是直接在控制台显示和操作。
当你要立马分析出今天早上10点到12点的IP访问情况的时候,直接在控制台敲命令是最快的。
另外一种就是生成html文件或者数据文件。
如果你希望每天管理的能给你发送一个昨天访问日志的情况,这个就是不二选择了。
goaccess的参数:
-a --agent-list : 在host模块是不是能点击IP出现这个IP的user-agentlist,就是出现如图的功能
就是下面的这个窗口
这个窗口有很多可以研究的。
首先,goaccess支持的日志格式有哪些?
Common Log Format (CLF)
通用日志格式,例子:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326主机 用户身份 作者 [日期] "请求方法请求路径 请求协议" 状态码 字节数
NCSA Commbined Log Format
这个是Common Log Format的扩展,例子:
125.125.125.125 - dsmith [10/Oct/1999:21:15:05 +0500] "GET /index.html HTTP/1.0" 200 1043 "" "Mozilla/4.05 [en] (WinNT; I)" "USERID=CustomerA;IMPID=01234"主机 用户身份 作者 [日期] "请求方法 请求路径 请求协议" 状态码 字节数 referrer 代理 cookie
W3C
IIS 4.0和5.0是使用这种格式的,例子如下:
#Software: Microsoft Internet Information Server 4.0#Version: 1.0#Date: 1998-11-19 22:48:39#Fields: date time c-ip cs-username s-ip cs-method cs-uri-stem cs-uri-query sc-status sc-bytes cs-bytes time-taken cs-version cs(User-Agent) cs(Cookie) cs(Referrer)1998-11-19 22:48:39 206.175.82.5 - 208.201.133.173 GET /global/images/navlineboards.gif - 200 540 324 157 HTTP/1.0 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+95) USERID=CustomerA;+IMPID=01234
CloudFront
AWS上的日志格式
自定义格式
关于自定义格式所设置的参数说明在 这里
如果开启了-d,goaccess就会使用GEOIP来进行IP解析。
Host模块中不需要被统计的IP,比如可以将爬虫的IP过滤掉
-m --with-mouse 控制面板开启支持鼠标点击,带上了m之后,双击鼠标就相当于回车的操作
-H和-M带上之后效果为:
指定配置文件,如果你有配置文件,配置文件中又恰巧设置了log-format和date,那么你就不会被强制进入到format对话框了。如果你没有设置的话,默认使用~/.goacessrc。
忽略请求的参数部分
在Host模块中是否进行IP的解析。加上-r是禁止IP解析。
输出无颜色标示
展示真实的。在Operation System模块中,是否展示更详细的操作系统信息。
如图:
F1是打开帮助文档
F5是刷新当前窗口
q是退出当前窗口,直到退出程序
o是进入选择条目
0-9 是选择模块
tab和shift+tab是在前后模块之前切换
j和k是在模块内部条目切换
s是模块内部条目排序方式
ps:模块切换在右上角有当前模块的标示
说起GoAccess最让你爽的就是能生成html了,然后每天就可以看个统计报表。
下面的命令能生成html页面:
goaccess -d -f web.log -a -p /home/yejianfeng/.goaccessrc > test.html
生成的html的截图如下:
也可以生成json:
goaccess -q -f web.log -a -p /home/yejianfeng/.goaccessrc -o json >test.json
和csv
goaccess -q -f web.log -a -p /home/yejianfeng/.goaccessrc -o csv>test.csv
我一般是将分析结果保存为HTML格式,然后通过脚本发送出去,脚本如下:
#!/usr/bin/#coding:utf-8import smtplibimport sysfrom email.Header import Headerfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.image import MIMEImagedef sendMail(sender,receiver,subject,attfile): smtpserver = 'smtp.126.com' username = 'admin123' password = '111111' msg = MIMEMultipart('alternative') msg['Subject'] = Header(subject,'utf-8') f = open(attfile) html = ''.join(f.readlines()) f.close() part2 = MIMEText(html,'html','utf-8') msg.attach(part2) att = MIMEText(open(attfile,'rb').read(),'base64','utf-8') att["Content-Type"] = 'application/octet-stream' att["Content-Disposition"] = 'attatchment;filename="report.html"' msg.attach(att) smtp = smtplib.SMTP() smtp.connect('smtp.126.com') smtp.login(username,password) smtp.sendmail(sender,receiver,msg.as_string()) smtp.quit()if __name__ == '__main__': sender = 'admin123@126.com' receiver = ['user01@126.com','user02@126.com'] subject = 'xxx日志分析报告' sendMail(sender,receiver,subject,sys.argv[1])