Hive 分区

佐手、 提交于 2020-03-05 13:32:11

分区简介

Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。分区表实际上对应一个HDFS文件系统上的文件夹,该文件夹下是该分区的数据文件。

HIVE的分区通过在创建表时启用partition by实现,具体分区的标识是插入内容时指定的。当要查询某一分区的内容时可以采用where语句,通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。

示例:

  1. 准备数据
    在Linux的/usr/local/test目录下面创建如下三个文件
    • stu1.txt:
      zhangsan 13 male shiziBan
      lisi 14 female musicBan
      wanger 19 male musicBan
      mazi 15 male shiziBan
    • stu2.txt:
      qianwu 12 female wudaoBan
      zhaoliu 16 female shiziBan
      lisi 18 male wudaoBan
      xiangming 13 female shiziBan
    • stu3.txt:
      wangwei 18 female wudaoBan
      ligang 10 male musicBan

创建分区表

在这里插入图片描述

  1. 导入数据
    在这里插入图片描述

查看数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

增加分区

在这里插入图片描述

删除分区

在这里插入图片描述

查看分区个数

在这里插入图片描述

查看分区结构

在这里插入图片描述
在这里插入图片描述

二级分区

二级分区指是2个分区字段
示例:
第一步:创建二级分区表:
在这里插入图片描述
第二步:导入数据
在这里插入图片描述
第三步:查询数据

在这里插入图片描述

分区和数据关联的方式

方式一:先上传数据后恢复

  1. 创建目录并上传文件
    在这里插入图片描述
  2. 修复之后才能查询到数据

在这里插入图片描述

方式二:先上传数据后添加分区

  1. 创建目录、上传数据
    在这里插入图片描述
  2. 添加分区后查询
    在这里插入图片描述

方式三:先创建文件夹后load数据到分区

  1. 创建文件夹
    在这里插入图片描述
  2. load数据到分区
    在这里插入图片描述
  3. 查询
    在这里插入图片描述
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!