- 基于分布式存储用于查询和管理的数据仓库
- 海量存储数据一般都可以使用mapreduce进行计算分析,获取中间结果,又作为初始结果进行输入,最终可以得到计算的结果,缺点是效率低
- 实现MapReduce逻辑比较复杂
- 使用sql语句操作,把大量的MapReduce程序写成一个模版,封装到一个框架中,这个框架就是hive
- hive创建出一个表,关联文件存储路径,放到元数据库中,在根据sql语句的类型编译出相应的MapReduce程序,就可以得到一个可以运行的程序传给执行器,就可以根据hadoop命令提交到集群中,这样就无需自己写MapReduce程序,只需要写SQL语句就可以
- hive比较慢,因为底层使用的是MapReduce框架实现的
- spark替代hive,spark底层是把sql语句翻译成spark
- hive结构
- hive不支持单条操作,因为hdfs不支持
来源:oschina
链接:https://my.oschina.net/u/4434424/blog/3195471