蚂蚁森林植物申领统计

老子叫甜甜 提交于 2020-05-05 14:41:04

 题目1:

蚂蚁森林植物申领统计

下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。

table_name: user_low_carbon
user_id       data_dt       low_carbon
用户          日期 			减少碳排放(g)


蚂 蚁 森 林 植 物 换 购 表 , 用 于 记 录 申 领 环 保 植 物 所 需 要 减 少 的 碳 排 放 量
table_name: plant_carbon
plant_id 	plant_name 	low_carbon
植物编号 	植物名 		换购植物所需要的碳


原始数据样例:
user_low_carbon:
user_id date_dt low_carbon
u_001 2017/1/1 10
u_001 2017/1/2 150
u_001 2017/1/2 110
u_001 2017/1/2 10
u_001 2017/1/4 50
u_001 2017/1/4 10
u_001 2017/1/6 45
u_001 2017/1/6 90
u_002 2017/1/1 10
u_002 2017/1/2 150
u_002 2017/1/2 70
u_002 2017/1/3 30
u_002 2017/1/3 80
u_002 2017/1/4 150
u_002 2017/1/5 101
u_002 2017/1/6 68
…

plant_carbon:
plant_id plant_name plant_carbon
p001 梭梭树 17
p002 沙柳 19
p003 樟子树 146
p004 胡杨 215
…

一 创建表
create table user_low_carbon(u_id string,data_dt string ,low_carbon int )
row format delimited
fields terminated by '/t'
;

create table plant_carbon(plant_id string,plant_name string,low_carbon int)
row format delimited
fields terminated by '/t'
;


二 加载数据
load data local inpath 'xxx' into table user_low_carbon

load data local inpath 'yyy' into table plant_carbon


三 设置本地模式
set hive.exec.mode.local.auto=true;

题目一:
蚂蚁森林植物申领统计
问题:假设 2017 年 1 月 1 日开始记录低碳数据(user_low_carbon),假设 2017 年 10 月 1 日
之前满足申领条件的用户都申领了一颗 p004-胡杨,
剩余的能量全部用来领取“p002-沙柳” 。
统计在 10 月 1 日累计申领“p002-沙柳” 排名前 10 的用户信息;以及他比后一名多领了几颗
沙柳。
得到的统计结果如下表样式:
user_id plant_count less_count(比后一名多领了几颗沙柳)
u_101 1000 100
u_088 900 400
u_103 500 …



1.先获取10月1日前low_carbon最大的11个人
select u_id,sum(low_carbon) as low_carbon_sum 
from low_carbon 
where datediff(regexp_replace(date_dt,"/","-"),regexp_replace('2017/10/1',"/","-"))<0
group by user_id
order by low_carbon_sum desc
limit 11
;t1

2.查出胡杨所需的低碳量
select plant_carbon from plant_carbon where plant_name="胡杨";t2

3.查出沙柳所需的低碳量
select plant_carbon from plant_carbon where plant_name="沙柳";t3

4.计算在申领1颗胡杨后可以申领沙柳的棵树
select u_id,round((t1.low_carbon_sum-t2.plant_carbon)/t3.plant_carbon) plant_count 
from t1,t2,t3;
t4

5.将每一行的下一个申领棵树放到当前行
select u_id,plant_count,lead(plant_count,1,0) over(sort by plant_carbon desc) as lead_Count
from t4;t5

6.计算最终的差集
select u_id,(plant_count-lead_Count)from t5 limit 10;



7.结果展示
+----------+--------------+-------+--+
| user_id | plant_count | 
| u_007 | 66.0 | 2.0 |
| u_013 | 64.0 | 10.0 |
| u_008 | 54.0 | 7.0 |
| u_005 | 47.0 | 1.0 |
| u_010 | 46.0 | 2.0 |
| u_014 | 44.0 | 5.0 |
| u_011 | 39.0 | 1.0 |
| u_009 | 38.0 | 6.0 |
| u_006 | 32.0 | 9.0 |
| u_002 | 23.0 | 1.0 |
+----------+--------------+-------+--+
----------------------------------------------------------------
重点语法:
----------------------------------------------------------------
①datediff
----------------------------------------------------------------
定义和用法
DATEDIFF() 函数返回两个日期之间的时间。
语法
DATEDIFF(datepart,startdate,enddate)
startdate 和 enddate 参数是合法的日期表达式。

datepart 参数可以是下列的值:
datepart 	缩写
年 	yy, yyyy
季度 	qq, q
月 	mm, m
年中的日 	dy, y
日 	dd, d
周 	wk, ww
星期 	dw, w
小时 	hh
分钟 	mi, n
秒 	ss, s
毫秒 	ms
微妙 	mcs
纳秒 	ns

实例:
使用如下 SELECT 语句:
SELECT DATEDIFF(day,'2008-12-29','2008-12-30') AS DiffDate
结果:
DiffDate
1

例子 2
使用如下 SELECT 语句:
SELECT DATEDIFF(day,'2008-12-30','2008-12-29') AS DiffDate
结果:
DiffDate
-1

此处的用法就是datediff()<0表示开始日期小于10月1日,即在10月1日之前统计
----------------------------------------------------------------
②round
----------------------------------------------------------------
ROUND() 函数
ROUND 函数用于把数值字段舍入为指定的小数位数。
SQL ROUND() 语法
SELECT ROUND(column_name,decimals) FROM table_name
参数 	描述
column_name 	必需。要舍入的字段。
decimals 	必需。规定要返回的小数位数。

SQL ROUND() 实例
我们拥有下面这个 "Products" 表:
Prod_Id 	ProductName 	Unit 	UnitPrice
1 	gold 	1000 g 	32.35
2 	silver 	1000 g 	11.56
3 	copper 	1000 g 	6.85
现在,我们希望把名称和价格舍入为最接近的整数。
我们使用如下 SQL 语句:
SELECT ProductName, ROUND(UnitPrice,0) as UnitPrice FROM Products
结果集类似这样:
ProductName 	UnitPrice
gold 	32
silver 	12
copper 	7


此处的用法就是把得出的沙柳树取整数
----------------------------------------------------------------
③lead
----------------------------------------------------------------
 SQL LEAD()函数 LAG()函数

lag ,lead 分别是向前,向后;
lag 和lead 有三个参数,第一个参数是列名,第二个参数是偏移的offset,第三个参数是 超出记录窗口时的默认值)

SQL> select id,name,lead(name,1,0) over ( order by id )  from kkk;
                                                                   
        ID NAME                 LEAD(NAME,1,0)OVER(ORDERBYID)    
---------- -------------------- -----------------------------    
         1 1name                2name                            
         2 2name                3name                            
         3 3name                4name                            
         4 4name                5name                            
         5 5name                0                              

此处的lead使用就是把购沙柳棵树排行中后一个放到本行

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!