Hive

▼魔方 西西 提交于 2020-03-15 22:04:10
  • 基于分布式存储用于查询和管理的数据仓库
  • 海量存储数据一般都可以使用mapreduce进行计算分析,获取中间结果,又作为初始结果进行输入,最终可以得到计算的结果,缺点是效率低
  • 实现MapReduce逻辑比较复杂
  • 使用sql语句操作,把大量的MapReduce程序写成一个模版,封装到一个框架中,这个框架就是hive
  • hive创建出一个表,关联文件存储路径,放到元数据库中,在根据sql语句的类型编译出相应的MapReduce程序,就可以得到一个可以运行的程序传给执行器,就可以根据hadoop命令提交到集群中,这样就无需自己写MapReduce程序,只需要写SQL语句就可以
  • hive比较慢,因为底层使用的是MapReduce框架实现的
  • spark替代hive,spark底层是把sql语句翻译成spark

  • hive结构

  • hive不支持单条操作,因为hdfs不支持
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!