分区简介
Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。分区表实际上对应一个HDFS文件系统上的文件夹,该文件夹下是该分区的数据文件。
HIVE的分区通过在创建表时启用partition by实现,具体分区的标识是插入内容时指定的。当要查询某一分区的内容时可以采用where语句,通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。
示例:
- 准备数据
在Linux的/usr/local/test目录下面创建如下三个文件- stu1.txt:
zhangsan 13 male shiziBan
lisi 14 female musicBan
wanger 19 male musicBan
mazi 15 male shiziBan - stu2.txt:
qianwu 12 female wudaoBan
zhaoliu 16 female shiziBan
lisi 18 male wudaoBan
xiangming 13 female shiziBan - stu3.txt:
wangwei 18 female wudaoBan
ligang 10 male musicBan
- stu1.txt:
创建分区表
- 导入数据
查看数据
增加分区
删除分区
查看分区个数
查看分区结构
二级分区
二级分区指是2个分区字段
示例:
第一步:创建二级分区表:
第二步:导入数据
第三步:查询数据
分区和数据关联的方式
方式一:先上传数据后恢复
- 创建目录并上传文件
- 修复之后才能查询到数据
方式二:先上传数据后添加分区
- 创建目录、上传数据
- 添加分区后查询
方式三:先创建文件夹后load数据到分区
- 创建文件夹
- load数据到分区
- 查询
来源:CSDN
作者:梁云亮
链接:https://blog.csdn.net/lianghecai52171314/article/details/104671599