hive的工作机制

hive的工作机制

删除回忆录丶 提交于 2019-12-21 16:48:22
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL查询功能。 深入浅出学Hive(二) http://my.oschina.net/dfsj66011/blog/601919 hive的工作机制 1、在hive中建一个库 ---在hive的元数据库中记录 --- 在hdfs的默认路径下/user/hive/warehouse/ 建一个以 "库名.db" 为名字的文件夹 2、在hive的库中建表 ---在hive的元数据库中记录 -- - 在hdfs的默认路径下 /user/hive/warehouse/库.db/ 下建一个 “表名” 为名字的文件夹 3、hive中内部表和外部表的区别 ----建表时, 内部表不用指定数据存放的路径,默认都放在 /user/hive/warehouse/ --- -外部表建表时,要指定external关键字,同时要指定数据存放的路径(要分析的数据在哪就指定哪) ---- 内部表删除时,会清掉元数据,同时删掉表文件夹及其中的数据 --- -外部表删除时,只清除元数据 4、 hive表的数据可以存成多种文件格式,最普通的是textfile,但是性能比较好的是 sequenceFile格式 ----sequencefile