Hive基础练习一
下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的核心是驱动器,它可以连接sql和hdfs,将sql转换成了MapReduce任务,驱动器主要包括: (1)解析器:解析sql语句,划分为不同的stage (2)编译器:将不同阶段的stage编译,变成一个个的MR任务 (3)优化器:对逻辑执行进行优化 (4)执行器:将sql里的逻辑任务转换为hdfs的物理任务,hive的执行器就是MapReduce hive 内部表和外部表区别 内部表:主要用在数据仓库层(DW层),为个人独自占有,如果删除表格,对应的原始数据也将删除,但是对其他人没有影响。 外部表:主要用在源数据层(ODS层),删除表格不会删除对应的数据。 在建表时,如果是内部表,不需要使用external关键字,外部表需要使用external关键字。 创建表格导入数据练习1 战狼2,吴京:吴刚:卢婧姗,2017-08-16 大话西游,周星驰:吴孟达,1995-09-01 哪吒,吕艳婷:瀚墨,2019-07-26 使徒行者2,张家辉:古天乐:吴镇宇,2019-08-07 鼠胆英雄