分类: 系统运维
2009-05-16 00:17:19
简单点说.IP就是代表 当天有 600IP访问过你的站,而PV就是表示在这600台电脑中有人看了很多次!
pv 者,PageView也,即页面浏览量,或点击量;通常是衡量一个网络新闻频道或站点甚至一条网络新闻“好坏”的主要指标;当然,有时,还会同时考察另外一个指标,即uv,或unique visitors,指访问某个站点或点击某条新闻的不同IP地址的人数。
pv之于网站,就像收视率之于电视,从某种程度上已成为投资者衡量商业网站表现的最重要尺度。从长远看,很多网站也意识到,pv的追求需要和品牌的打造结合起来;但现代商业行为在投资者急功近利的评判压力下,往往无奈为了使pv数据良好而不择手段。
一条新闻发布以后,其pv数据便可以加以跟踪,通常是每5分钟统计一次。不同品牌的网站的不同频道,对其所发布的新闻的pv表现有一个大致的评判尺度。新闻发布后,一般pv值总有一个上升的过程。可以从不同时段的pv表现,来计算pv的单位时间变化幅度,有经验的网络编辑,经过几个5分钟的数据积累,便能大致预料到这条新闻的pv峰值水平。如果这个水平不能令人满意,则编辑就要采取一些手段,如“优化”标题,或者增加其他吸引眼球的元素,如图片。一般来说,通过这样的“处理”,一条新闻的pv表现能有所改善,达到新的高峰。
也就是说,网络新闻的编辑手段影响着pv值。
还有哪些因素对pv有影响呢?至少还有这些因素:
新闻发布的时间。不同的时间段,上网的人数不同,访问该站点的人数也不同,因此,有时pv值的涨落,其主要贡献,在于不同时段上网人数的自然波动。同样一条新闻,在不同的时段发布,pv表现就会有差别。
不同时段上网的人,其人口特征(性别、年龄、教育程度、阅读旨趣等)不同,所以,同样是1万个上网的人,甚至同样是对某个网站的1万次访问,不同时段,这1万次访问在不同频道/内容上的分布是有差别的。所以有时,pv的变化,和这个因素导致的变化有关。
访问的周期。对于一些常浏览的网站,我们可能一天之中会访问几次,这中间有一定的时间间隔。这个间隔,很多时候和人们的现实工作节奏有关系。比如,不少人一上班会抽空浏览一下新闻,第二次再来看看又有什么新闻的时候,往往是上午中间休息时,甚至是午饭后的休息时间。因此,即使其他因素不变,由于人们回访网站的周期性,也会对新闻或网站的pv带来影响。当然,由于不同的人回访的周期长短不一、时段不一,这个影响因素未必会...表现中,但可以肯定的是,任何一个pv数据,也有这种回访周期的因素所起的作用。
搭便车因素。比如一些突发事件,会导致人们对某一网站的访问增加,但这些访问的初衷,本只是突发事件相关新闻。然而由于人们的新闻消费,往往具有不可预期性,所以常见的现象是,人们在看完想看的新闻后,还会顺带看看其他的。这一因素,也可能对某条新闻(与突发事件无关)的pv有所贡献。
最后,当然是一些偶然因素(其实搭便车因素也属于此)。包括哪些呢?比如天气因素,比如非典期间,等待。还有什么I以想一想:-)
由此看来,一个简单的pv数据,其实是多种因素综合贡献的结果,所以有时的pv涨落,实在不是完全可以通过编辑手段来加以引导和影响的。知道这一点很重要。因为这告诉我们,盲目的不加具体分析的以pv来衡量成败好坏,是不合理的。
在社会科学研究中,这种区分不同因素对某一个现象的贡献,就是所谓的详析模式。很多我们看似不变的东西,其实内部构成比例上发生了很大的变化。而有些看似变化的东西,其相对关系其实没有什么变化,只是一种单纯的数量上的涨落。
这使我想到那本《统计陷阱》,一本由一个记者所写的通俗读物。这本书的英文名称直译,叫“如何用统计数据说谎”。
网站说日均 IP / PV 访问量约为 600 / 2400
的意思是 今天访问首业次数为2400次 访问IP为600个
也就是说这600个IP一共访问首业2400次
PV是什么?
现在国内的站点都号称自己能统计pv,不过听我讲完pv到底是什么,估计所有的站长都要笑了。
pv的意思,就是一个访问者在24小时(0点到24点)内到底看了你网站几个页面。
不过在国内,由于站长普遍素质不高,理解的是五花八门。有的是认为就是刷一次算一次,有的认为是cookies记录一次,有的认为是cookies记录每个页面一次。国内计数器采用第一种理解的比较多,第二种就相当少了,第三种虽然也是错误理解,但毕竟和正确结果有些相紧,但是总比完全错误强。不过即使是第三种的记录方法,由于他的cookies记录需要相当的技术水平来编写,还没有采用这种方法的。
真正的pv是怎么计算的呢,就是当一个访问这访问的时候,记录他所访问的页面和对应的ip,然后确定这个ip今天访问了这个页面没有,由于涉及的元素有两个就比单纯记录ip要多一列。具体的比对方法比较复杂,我这里就不更深入说了,仅从数据库的量上来描述一下吧,如果到了23点,单纯ip有60万条的话,每个访问者平均访问了3个页面,那么pv表的记录就要有180万条,每来一个访问者除了比对那60万ip外,还要继续比对这180万的pv表,大家就可以想象这种运算量了。
所以说,国内现在不仅记录24小时独立ip的统计寥寥可数(一些付费统计还是记录24小时独立的),记录pv的更是根本没有,我在服务器负载低的时候曾经常识过统计pv,但是很快就被运算量难住了,再cpu和相关设备性能提升十倍以前,我都不准备提供此项服务。