互联网UV,PU,TopN统计
1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数   指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。 1.2 PV(page view)页面浏览量或点击量   页面浏览量或点击量,是衡量一个网站或网页用户访问量。具体的说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流量。 1.3 TopN   顾名思义,就是获取前10或前N的数据。 2. 离线计算UV、PV、TopN   这里主要使用hive或者MapReduce计算。 2.1 统计每个时段网站的PV和UV hive> select date,hour,count(url) pv, count(distinct guid) uv from track_log group by date, hour; date hour pv uv 20160624 18 64972 23938 20160624 19 61162 22330 2.2 hive中创建结果表 create table db_track_daily_hour