分类: LINUX
2010-05-18 11:34:53
五、高级配置
a、针对搜索引擎搜索爬行和搜索活动
在awstats.xxxxx.conf中配置,不能在公共文件awstats.common.conf中配置
#vi awstats.xxxx.conf
找到EXTRA SECTIONS,添加如下:
ExtraSectionName1="Google crawls - Top 50"
ExtraSectionCodeFilter1="200 304"
ExtraSectionCondition1="UA,(.*Googlebot.*)"
ExtraSectionFirstColumnValues1="URL,(.*)"
ExtraSectionFirstColumnFormat1="%s"
ExtraSectionStatTypes1=PHBL
ExtraSectionAddAverageRow1=0
ExtraSectionAddSumRow1=1
MaxNbOfExtra1=50
MinHitExtra1=10
ExtraSectionName2="Baidu crawls - Top 50"
ExtraSectionCodeFilter2="200 304"
ExtraSectionCondition2="UA,(.*Baiduspider.*)"
ExtraSectionFirstColumnValues2="URL,(.*)"
ExtraSectionFirstColumnFormat2="%s"
ExtraSectionStatTypes2=PHBL
ExtraSectionAddAverageRow2=0
ExtraSectionAddSumRow2=2
MaxNbOfExtra2=50
MinHitExtra2=10
ExtraSectionName3="Yahoo Slurp crawls - Top 50"
ExtraSectionCodeFilter3="200 304"
ExtraSectionCondition3="UA,(.*Slurp.*)"
ExtraSectionFirstColumnValues3="URL,(.*)"
ExtraSectionFirstColumnFormat3="%s"
ExtraSectionStatTypes3=PHBL
ExtraSectionAddAverageRow3=0
ExtraSectionAddSumRow3=3
MaxNbOfExtra3=50
MinHitExtra3=10
ExtraSectionName4="MSN crawls - Top 50"
ExtraSectionCodeFilter4="200 304"
ExtraSectionCondition4="UA,(.*msnbot.*)"
ExtraSectionFirstColumnValues4="URL,(.*)"
ExtraSectionFirstColumnFormat4="%s"
ExtraSectionStatTypes4=PHBL
ExtraSectionAddAverageRow4=0
ExtraSectionAddSumRow4=4
MaxNbOfExtra4=50
MinHitExtra4=10
ExtraSectionName5="Sohu crawls - Top 50"
ExtraSectionCodeFilter5="200 304"
ExtraSectionCondition5="UA,(.*gogou.*)"
ExtraSectionFirstColumnValues5="URL,(.*)"
ExtraSectionFirstColumnFormat5="%s"
ExtraSectionStatTypes5=PHBL
ExtraSectionAddAverageRow5=0
ExtraSectionAddSumRow5=5
MaxNbOfExtra5=50
MinHitExtra5=10
ExtraSectionName6="sitemap.xml downloads by Useragent"
ExtraSectionCodeFilter6="200 304"
ExtraSectionCondition6="URL,(^\/sitemap\.xml)"
ExtraSectionFirstColumnTitle6="UA"
ExtraSectionFirstColumnValues6="UA,(.*)"
ExtraSectionStatTypes6=HBL
ExtraSectionAddAverageRow6=0
ExtraSectionAddSumRow6=1
MaxNbOfExtra6=10
MinHitExtra6=10
ExtraSectionName7="Top 30 RSS Readers/Spiders"
ExtraSectionCodeFilter7="200 304"
ExtraSectionCondition7="URL,\.xml|\.rdf|\.rss|\.asp|\.jsp|\.php|\.do"
ExtraSectionFirstColumnTitle7="RSS Reader/Spider"
ExtraSectionFirstColumnValues7="UA,(.*)"
ExtraSectionStatTypes7=HBL
ExtraSectionAddAverageRow7=1
ExtraSectionAddSumRow7=7
MaxNbOfExtra7=30
MinHitExtra7=10
ExtraSectionName8="Top articles under /tech"
ExtraSectionCodeFilter8="200 304"
ExtraSectionCondition8="URL,^\/tech\/.*"
ExtraSectionFirstColumnTitle8="Article Name"
ExtraSectionFirstColumnValues8="URL,^\/tech\/([\w]+)\.html"
ExtraSectionFirstColumnFormat8="%s"
ExtraSectionStatTypes8=PHL
ExtraSectionCodeFilter3="200 304"
ExtraSectionCondition3="UA,(.*Slurp.*)"
ExtraSectionFirstColumnValues3="URL,(.*)"
ExtraSectionFirstColumnFormat3="%s"
ExtraSectionStatTypes3=PHBL
ExtraSectionAddAverageRow3=0
ExtraSectionAddSumRow3=3
MaxNbOfExtra3=50
MinHitExtra3=10
ExtraSectionName4="MSN crawls - Top 50"
ExtraSectionCodeFilter4="200 304"
ExtraSectionCondition4="UA,(.*msnbot.*)"
ExtraSectionFirstColumnValues4="URL,(.*)"
ExtraSectionFirstColumnFormat4="%s"
ExtraSectionStatTypes4=PHBL
ExtraSectionAddAverageRow4=0
ExtraSectionAddSumRow4=4
MaxNbOfExtra4=50
MinHitExtra4=10
ExtraSectionName5="Sohu crawls - Top 50"
ExtraSectionCodeFilter5="200 304"
ExtraSectionCondition5="UA,(.*gogou.*)"
ExtraSectionFirstColumnValues5="URL,(.*)"
ExtraSectionFirstColumnFormat5="%s"
ExtraSectionStatTypes5=PHBL
ExtraSectionAddAverageRow5=0
ExtraSectionAddSumRow5=5
MaxNbOfExtra5=50
MinHitExtra5=10
ExtraSectionName6="sitemap.xml downloads by Useragent"
ExtraSectionCodeFilter6="200 304"
ExtraSectionCondition6="URL,(^\/sitemap\.xml)"
ExtraSectionFirstColumnTitle6="UA"
ExtraSectionFirstColumnValues6="UA,(.*)"
ExtraSectionStatTypes6=HBL
ExtraSectionAddAverageRow6=0
ExtraSectionAddSumRow6=1
MaxNbOfExtra6=10
MinHitExtra6=10
ExtraSectionName7="Top 30 RSS Readers/Spiders"
ExtraSectionCodeFilter7="200 304"
ExtraSectionCondition7="URL,\.xml|\.rdf|\.rss|\.asp|\.jsp|\.php|\.do"
ExtraSectionFirstColumnTitle7="RSS Reader/Spider"
ExtraSectionFirstColumnValues7="UA,(.*)"
ExtraSectionStatTypes7=HBL
ExtraSectionAddAverageRow7=1
ExtraSectionAddSumRow7=7
MaxNbOfExtra7=30
MinHitExtra7=10
ExtraSectionName8="Top articles under /tech"
ExtraSectionCodeFilter8="200 304"
ExtraSectionCondition8="URL,^\/tech\/.*"
ExtraSectionFirstColumnTitle8="Article Name"
ExtraSectionFirstColumnValues8="URL,^\/tech\/([\w]+)\.html"
ExtraSectionFirstColumnFormat8="%s"
ExtraSectionStatTypes8=PHL
ExtraSectionAddAverageRow8=1
ExtraSectionAddSumRow8=8
MaxNbOfExtra8=50
MinHitExtra8=10
ExtraSectionName9="Top articles under /blog/archives"
ExtraSectionCodeFilter9="200 304"
ExtraSectionCondition9="URL,^\/blog/archives\/.*"
ExtraSectionFirstColumnTitle9="Article ID"
ExtraSectionFirstColumnValues9="URL,^\/tech/archives\/([\d]+)\.html"
ExtraSectionFirstColumnFormat9="%s"
ExtraSectionStatTypes9=PHL
ExtraSectionAddAverageRow9=1
ExtraSectionAddSumRow8=9
MaxNbOfExtra9=30
MinHitExtra9=10
ExtraSectionName10="Sosospider crawls - Top 50"
ExtraSectionCodeFilter10="200 304"
ExtraSectionCondition10="UA,(.*Sosospider.*)"
ExtraSectionFirstColumnValues10="URL,(.*)"
ExtraSectionFirstColumnFormat10="%s"
ExtraSectionStatTypes10=PHBL
ExtraSectionAddAverageRow10=1
ExtraSectionAddSumRow10=10
MaxNbOfExtra10=50
MinHitExtra10=10
ExtraSectionName11="OutfoxBot/YodapBot crawls - Top 50"
ExtraSectionCodeFilter11="200 304"
ExtraSectionCondition11="UA,(.*YodaoBot.*)"
ExtraSectionFirstColumnValues11="URL,(.*)"
ExtraSectionFirstColumnFormat11="%s"
ExtraSectionStatTypes11=PHBL
ExtraSectionAddAverageRow11=1
ExtraSectionAddSumRow11=11
MaxNbOfExtra11=50
MinHitExtra11=10
ExtraSectionName12="QihooBot crawls - Top 50"
ExtraSectionCodeFilter12="200 304"
ExtraSectionCondition12="UA,(.*QihooBot.*)"
ExtraSectionFirstColumnValues12="URL,(.*)"
ExtraSectionFirstColumnFormat12="%s"
ExtraSectionStatTypes12=PHBL
ExtraSectionAddAverageRow12=1
ExtraSectionAddSumRow12=12
MaxNbOfExtra12=50
MinHitExtra12=10
b、插件介绍
Tooltips:在html报告中增加一些提示信息,会增加报告的大小,查看报告时需占用更多带宽,不推荐加载。
加载指令为:LoadPlugin="tooltips"
DecodeUTFKeys:处理搜索引擎UTF8编码的关键字(keywords/keyphrases )
要求的Perl模块:Encode 、 URI::Escape
加载指令为:LoadPlugin="decodeutfkeys"
IPv6:使AWStats支持IPv6地址的反向解析
要求的Perl模块:Net::IP 、Net::DNS
加载指令:LoadPlugin="ipv6"
HashFiles:把AWStats的DNS缓存文件作为native hash文件进行读写,大大提高DNS缓存文件加载速
要求的Perl模块:Storable
加载指令:LoadPlugin="hashfiles"
GeoIP:从Internet IP-Country数据库生成访问者来自国家的统计图表,将会降低8%的处理速度。其IP-Country数据库更新频率快,可以从GeoIP和后面介绍的GeoIPfree两者中选择其一使用。
要求的Perl模块:Geo::IP 或 Geo::IP::PurePerl (from Maxmind)
加载指令:LoadPlugin="geoip GEOIP_STANDARD /pathto/GeoIP.dat"
GeoIPfree:从Internet IP-Country数据库生成访问者来自国家的统计图表,将会降低10%的处理速度。其IP-Country数据库很少更新,可以从GeoIPfree和前面介绍的GeoIP两者中选择其一使用。
要求的Perl模块:Geo::IPfree version 0.2+ (from Graciliano M.P.)
加载指令:LoadPlugin="geoipfree"
GeoIP_Region_Maxmind:增加按访问者来自区域的统计图表,只能检测美国和加拿大的区域。此插件需要从Maxmind订购Region数据库。
要求的Perl模块:Geo::IP (from Maxmind)
加载指令:LoadPlugin="geoip_region_maxmind GEOIP_STANDARD /pathto/GeoIPRegion.dat"
GeoIP_City_Maxmind:增加按访问者来自城市(主要国家和区域)的统计图表。此插件需要从Maxmind订购完全的商业GeoCity数据库或免费的GeoLiteCity数据库。
要求的Perl模块: Geo::IP (from Maxmind)
加载指令:LoadPlugin="geoip_city_maxmind GEOIP_STANDARD /pathto/GeoIPCity.dat"
GeoIP_ISP_Maxmind:增加按访问者来自ISP的统计图表。此插件需要从Maxmind订购ISP数据库。
要求的Perl模块: Geo::IP (from Maxmind)
加载指令:LoadPlugin="geoip_isp_maxmind GEOIP_STANDARD /pathto/GeoIPISP.dat"
GeoIP_Org_Maxmind:增加按访问者来自组织的统计图表。此插件需要从Maxmind订购Org数据库
要求的Perl模块: Geo::IP (from Maxmind)
加载指令:LoadPlugin="geoip_org_maxmind GEOIP_STANDARD /pathto/GeoIPOrg.dat"
UserInfo: 在认证用户的报告中的每个登录信息后面增加一段文本(Firtname, Lastname, Office Department, ...) 。在DirData目录中必须建立一个名为userinfo.myconfig.txt的文件(本文示例 为:userinfo.) ,文件内容为tab分隔的两个字段,第一个字段为登录名,第二个字段为要显示的信息。
加载指令: LoadPlugin="userinfo"
HostInfo:在主机信息图表中增加一列,点击该列的链接可打开一个弹出窗口,显示主机的详细信息(比如whois信息)。
要求的Perl模块:Net::XWhois
加载指令:LoadPlugin="hostinfo"
ClusterInfo: 在Cluster报告中的cluster number后增加一列文本信息(例如完全的主机名)。在DirData目录中必须建立一个名为clusterinfo.myconfig.txt的文件 (本文示例为:clusterinfo.) ,文件内容为tab分隔的两个字段,第一个字段为cluster number,第二个字段为要显示的信息。当ShowClusterStats设置为0或定制日志格式中不使用%cluster 时,此插件不将被忽略。
加载指令:LoadPlugin="clusterinfo"
UrlAliases: 在URL报告中URL之前增加一列文本信息(Page title, description...)。在DirData目录中必须建立一个名为urlalias.myconfig.txt的文件(本文示例 为:urlalias.) ,文件内容为tab分隔的两个字段,第一个字段为URL,第二个字段为要显示的信息。
加载指令:LoadPlugin="urlalias"
TimeHiRes:用-showsteps选项生成以millisecond为单位的时间报告,仅在高度(Debug)时使用。
要求的Perl模块: Time::HiRes (if Perl < 5.8)
加载指令:LoadPlugin="timehires"
TimeZone:用来纠正错误的时区,对于apache和大部分版本的IIS,不需要此插件。此插件会降低40%的处理速度。
要求的Perl模块:Time::Local
加载指令:LoadPlugin="timezone +2"
Rawlog:在AWStats主页面增加一个表单,允许用户去查看原始日志内容。
加载指令:LoadPlugin="rawlog"
GraphApplet:支持3D graphic applet生成的图表
加载指令:LoadPlugin="graphapplet /awstatsclasses"
qqhostinfo:在访问主机表格中增加一列,显示ip对应的位置。此插件为非官方插件,需要自行安装。此插件需要QQWry.Dat。
要求的Perl模块:Net::XWhois
加载指令:LoadPlugin="qqhostinfo"
c、基于国家城市信息的插件安装:
可参考:
GeoIP 和 Geo::IPfree(awstats 5.5+)
GeoIP和Geo::IPfree都免费的是国家/IP的影射表,比通过DNS反相解析域名得到的统计准确,而且速度快。GeoIP的API都是免费 的,缺省库是免 费的,收费的是它的数据更新服务。Geo::IPfree不仅代码是公开的,而且库数据也是公开的。
目前免费提供了GeoIP和GeoIPCityLite数据包:可以定期每个月从以下地址下载:
wget
wget
wget
移动数据文件病解压
mv GeoIP.dat.gz /usr/local/share/GeoIP/
gunzip /usr/local/share/GeoIP/GeoIP.dat.gz
mv GeoLiteCity.dat.gz /usr/local/share/GeoIP/
gunzip /usr/local/share/GeoIP/GeoLiteCity.dat.gz
mv GeoIPASNum.dat.gz /usr/local/share/GeoIP/
gunzip /usr/local/share/GeoIP/GeoIPASNum.dat.gz
GeoIP安装:
wget
tar -xvzf GeoIP-1.4.5.tar.gz
cd GeoIP-1.4.5
./configure
make
make check
sudo make install
然后下载Perl库:GeoIP Perl解包后
wget
tar -xvzf Geo-IP-1.35.tar.gz
cd Geo-IP-1.35
perl Makefile.PL LIBS='-L/usr/local/lib'
make
make test
sudo make install
PurePerl库得安装:
wget
tar -xvzf Geo-IP-PurePerl-1.17.tar.gz -C /usr/local/src/
cd /usr/local/src/Geo-IP-PurePerl-1.17
perl Makefile.PL
make
make test
make install
Geo::IPfree安装:
~gmpassos/Geo-IPfree-0.2/
tar -zvxf Geo-IPfree-1.100470.tar.gz
cd Geo-IPfree-1.100470
perl Makefile
make
make test
make install
在文件中配置,我们打开awstats.xxxx.conf文件,在PLUGINS中加载如下信息:
LoadPlugin="tooltips"
LoadPlugin="hashfiles"
LoadPlugin="geoip GEOIP_STANDARD /usr/local/share/GeoIP/GeoIP.dat"
LoadPlugin="geoip_city_maxmind GEOIP_STANDARD /usr/local/share/GeoIP/GeoLiteCity.dat"
LoadPlugin="geoip_org_maxmind GEOIP_STANDARD /usr/local/share/GeoIP/GeoIPASNum.dat"
如果用这个插件差不多要牺牲8%的性能。
|
d、如果我们想知道我国更详细的地区信息,比如显示来访者得地区,我就要用到做的这个qqhostinfo插件,可以在访问主机表格中增加一列,显示ip对应的位置。当然这个资料来源于QQ的QQWry.Dat文件。 插件代码下载:
好像这个网站最近打不开了,可以翻墙。 这个网站下载qqwry.dat,但是这个文件中的地址是实时更新的,所以要经常更新。 最好将这几个文件都放在/usr/local/awstats/wwwroot/cgi-bin/plugins下, 可以打开qqwry.pl文件,将./QQWry.Dat修改为/usr/local/awstats/wwwroot/cgi-bin/plugins/QQWry.Dat即可。 然后编辑awstats.xxx.conf文件,在PLUGINS中加载如下项: LoadPlugin="qqhostinfo" e、打上几个中文搜索引擎定义的补丁 (可选) AWStats 6.6 在这方面已经做得很好了,如果有这个需要的可以打上车东提供的补丁。 需要在本地打好补丁后再上传,如在 Ubuntu 上把他们放在同一个目录,然后: f、让图标显示出来 安装 AWStats 后,没有把图标文件上传,查看 awstats.osxcn.com.conf 配置文件发现默认图标 DirIcons=”icon” 是这样的。那么只需要把 icon 放在 /httpdocs/awstats/ 目录下就可以了。 icon 文件夹在 AWStats 包里 awstats-6.6/wwwroot/icon 这个位置。 g、如果你的网站访问量达到千万级,可以使用 “AWStats 的千万级日志解决方案”。 命令行统计增加: -databasebreak=day 更多关于 AWStats 方面的东西,可以. h、分析多天前的日志 怎么从失去数据的那天分析起。的Awstats分析前,会先查DirDate中的数据中读入.我们先找到下面几行 LastLine 20080721235959 6324519 1469840694 0 这几行开始的注释掉,在重新分析,就会可以了.(操作前,请备份好这个文件)这样就能在次读入以前的数据. j、日志分析在跨月时的一个小技巧 一直使用awstats来分析apache的日志,在crond里使用这样的命令来处理前一天的日志/usr/local/awstats/tools/awstats_buildstaticpages.pl -awstatsprog=/usr/local/awstats/wwwroot/cgi-bin/awstats.pl -config=admin99 -lang=cn -dir=/home/awstatsresult -update -builddate=%YY%MM%DD,结果发现,前一个月的最后一天的分析结果一直看不到。 因为处理每月最后一天的日志的时候,已经是下个月1号的凌晨了,awstats虽然建立了当天的分析页面,却不知道该把分析的昨天的结果写在什么地方,因此看不到最后一天的统计结果 找来找去,终于找到了办法,就是在处理前一个月最后一天的日志的时候,在原有的命令行的基础上,加上一个-month参数,让awstats生成一个月的日志分析结果。在这个操作中,awstats并没有做比平时多的事情。 例如上面的例子中,加入-month参数后(分析11月最后一天) /usr/local/awstats/tools/awstats_buildstaticpages.pl -awstatsprog=/usr/local/awstats/wwwroot/cgi-bin/awstats.pl -config=admin99 -lang=cn -dir=/home/awstatsresult -update -month=11 -builddate=061131 之所以把 -builddate设置为061131(其实没有这一天的)只是为了延用个人以前的习惯,在awstats存放分析结果的静态页面的目录中做了一个index.htm文件,方便随时跳转到某天。 网上有很多人都把month参数设置为-month=$M,究竟该如何设置应该看自己的实际情况,像我这样的情况,awstats每天分析前天的日志,只能将-month设置为上个月 |
六、awstats目录下tools文件夹,常用工具介绍: 1.awstats_updateall.pl 2.awstats_buildstaticpages.pl awstats属性参数:
3.logresolvemerge.pl
Options(参数项):
4.maillogconvert.pl 5.urlaliasbuilder.pl --urllistfile=输入文件 url菜单文件 |