impala

0033-如何在Hue中使用Sentry

六月ゝ 毕业季﹏ 提交于 2019-12-21 16:53:22
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1.文档编写目的 本文档讲述如何通过Hue管理Sentry权限,您将学习到以下知识: 1.如何使用Hue创建用户 2.如何使用Hue为hive用户组授权超级权限 3.如何使用Hue验证授权 文档主要分为以下几步: 1.使用Hue创建测试用户 2.授权hive组为管理员 3.创建角色并授权验证 4.备注 这篇文档将重点介绍如何使用Hue管理Sentry权限,并基于以下假设: 1.CDH集群运行正常 2.集群已启用Kerberos 3.集群已安装Sentry服务,已和HDFS/Hive/Impala/Hue服务集成 以下是本次测试环境,但不是本操作手册的硬限制: 1.操作系统:CentOS 6.5 2.CDH和CM版本为5.12.1 3.采用root用户进行操作 4.Hue的管理员账号为admin 2.在Hue上创建用户 通过Hue管理员分别创建用户hive/fayson_d/fayson_a/fayson_c/fayson_h,hive用户所属组为hive组,其它用户所属组也与用户名称一样。 注意:确保以上用户在集群所有节点均存在。 1.使用admin用户登录Hue 2.进入用户管理,创建hive的组 点击“Add group”保存新建的组 3.创建hive用户(以创建hive用户为例) 3

How to make Spark Streaming write its output so that Impala can read it?

旧巷老猫 提交于 2019-12-21 02:51:09
问题 I have the following problem with Spark Streaming API. I am currently streaming input data via Flume to Spark Streaming, with which I plan to do some preprocessing for the data. Then, I'd like to save the data to Hadoop's file system and query it with Impala. However, Spark is writing the data files to separate directories and a new directory is generated for every RDD. This is a problem because, first of all, the external tables in Impala cannot detect subdirectories, but only files, inside

Joining tables that compute values between dates

回眸只為那壹抹淺笑 提交于 2019-12-20 03:50:50
问题 so I have the two following tables Table A Date num 01-16-15 10 02-20-15 12 03-20-15 13 Table B Date Value 01-02-15 100 01-03-15 101 . . 01-17-15 102 01-18-15 103 . . 02-22-15 104 . . 03-20-15 110 And i want to create a table that have the the following output in impala Date Value 01-17-15 102*10 01-18-15 103*10 02-22-15 104*12 . . . . So the idea is that we only consider dates between 01-16-15 and 02-20-15, and 02-20-15 and 03-20-15 exclusively. And use the num from the starting date of that

转:大数据时代快速SQL引擎-Impala

旧巷老猫 提交于 2019-12-18 10:57:19
本文来自:http://blog.csdn.net/yu616568/article/details/52431835 如有侵权 可立即删除 背景 随着 大数据 时代的到来, Hadoop 在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十、几百M也要放到Hadoop上作分析,只会适得其反,但是当面对真正的Big Data的时候,Hadoop就会暴露出它对于数据分析查询支持的弱点。甚至出现《 MapReduce: 一个巨大的倒退 》此类极端的吐槽,这也怪不得Hadoop,毕竟它的设计就是为了批处理,使用用MR的编程模型来实现SQL查询,性能肯定不如意。所以通常我也只是把 Hive 当做能够提供将SQL语义转换成MR任务的工具,尤其在做ETL的时候。 在 Dremel论文 发表之后,开源社区涌现出了一批基于MPP 架构 的SQL-on-Hadoop(HDFS)查询引擎,典型代表有 Apache Impala 、Presto、 Apache Drill 、 Apache HAWQ 等,看上去这些查询引擎提供的功能和实现方式也都大同小异,本文将基于Impala的使用和实现介绍日益发展的基于HDFS的MPP数据查询引擎。 Impala介绍 Apache Impala是由Cloudera开发并开源的一款基于HDFS/

impala安装部署(绝对详细!)

送分小仙女□ 提交于 2019-12-16 08:32:03
继 《impala入门,从基础到架构!!!》 之后,本篇博客,小菌为大家带来impala 的安装部署! 文章目录 1.安装前提 2.下载安装包、依赖包 3.虚拟机新增磁盘(可选) 3.1 关机新增磁盘 3.2.开机挂载磁盘 4.配置本地yum源 4.1.上传安装包解压 4.2.配置本地yum源信息 5.安装Impala 5.1.集群规划 5.2.主节点安装 5.3.从节点安装 6.修改Hadoop、Hive配置 6.1.修改hive配置 6.2.修改hadoop配置 6.3.重启hadoop、hive 6.4.复制hadoop、hive配置文件 7.修改impala配置 7.1.修改impala默认配置 7.2.添加mysql驱动 7.3.修改bigtop配置 8.启动、关闭impala服务 8.1.impala web ui 1.安装前提 集群提前安装好hadoop,hive。 hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。 hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。 2.下载安装包、依赖包 由于impala没有提供tar包进行安装,只提供了rpm包。因此在安装impala的时候,需要使用rpm包来进行安装。rpm包只有cloudera公司提供了

Impala>Impala的java开发

◇◆丶佛笑我妖孽 提交于 2019-12-16 05:07:39
在实际工作当中,因为impala的查询比较快,所以可能有会使用到impala来做数据库查询的情况,可以通过java代码来进行操作impala的查询。 1.下载impala jdbc依赖 下载路径: https://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-28.html 因为cloudera属于商业公司性质,其提供的jar并不会出现在开源的maven仓库中,如果在企业中需要使用,请添加到企业maven私服。 2.创建java工程 创建普通java工程,把依赖添加工程。 3.java api public static void test ( ) { Connection con = null ; ResultSet rs = null ; PreparedStatement ps = null ; String JDBC_DRIVER = "com.cloudera.impala.jdbc41.Driver" ; String CONNECTION_URL = "jdbc:impala://node-3:21050" ; try { Class . forName ( JDBC_DRIVER ) ; con = ( Connection ) DriverManager . getConnection (

Impala-shell命令参数

十年热恋 提交于 2019-12-15 00:00:43
一、 impala-shell外部命令 所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在 启动 impala-shell 时设置,用于修改命令执行环境 。 impala-shell –h 可以帮助我们查看帮助手册。也可以参考课程附件资料。 比如几个常见的: impala-shell –r 刷新impala元数据,与建立连接后执行 REFRESH 语句效果相同 impala-shell –f 文件路径 执行指的的sql查询文件。 impala-shell –i 指定连接运行 impalad 守护进程的主机。默认端口是 21000。你可以连接到集群中运行 impalad 的任意主机。 impala-shell –o 保存执行结果到文件当中去。 二、​​​​​​​ impala-shell内部命令 所谓内部命令是指,进入impala-shell命令行之后可以执行的语法。 connect hostname 连接到指定的机器impalad上去执行。 refresh dbname.tablename 增量刷新,刷新某一张表的元数据,主要用于刷新hive当中数据表里面的数据改变的情况。 invalidate metadata 全量刷新,性能消耗较大

Issue with WITH clause with Cloudera JDBC Driver for Impala - Returning column name instead of actual Data

时间秒杀一切 提交于 2019-12-13 07:38:21
问题 I am using Cloudera JDBC Driver for Impala v 2.5.38 with Spark 1.6.0 to create DataFrame. It is working fine for all queries except WITH clause, but WITH is extensively used in my organization. Below is my code snippet. def jdbcHDFS(url:String,sql: String):DataFrame = { var rddDF: DataFrame = null val jdbcURL = s"jdbc:impala://$url" val connectionProperties = new java.util.Properties connectionProperties.setProperty("driver","com.cloudera.impala.jdbc41.Driver") rddDF = sqlContext.read.jdbc

Impala - Get for multiple tables in database concentenated columns

巧了我就是萌 提交于 2019-12-13 03:38:16
问题 Follow up on this question: Impala - Get for all tables in database concentenated columns Lets say I have a database A with tables B1, B2, ... B300. B1 has columns C1 and C2 ,B2 has columns D1, D2 and D3. ... and B300 has columns E1 and E2. I am looking for an Impala query that yields the following desired output: B1 | "C1+C2" B2 | "D1+D2+D3" ... B300 | "E1+E2" where "D1+D2+D3", "C1+C2" and "E1+E2" are concatenated strings. 回答1: First of all UNION all tables together and generate table_name

Apache Impala安装部署

时光毁灭记忆、已成空白 提交于 2019-12-12 20:47:14
温馨提示::安装Impala之后hdfs 和hive可能会出点问题,请提前准备好快照 1. 安装前提 集群提前安装好hadoop,hive。 hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。 hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。 2. 下载安装包、依赖包 由于impala没有提供tar包进行安装,只提供了rpm包。因此在安装impala的时候,需要使用rpm包来进行安装。rpm包只有cloudera公司提供了,所以去cloudera公司网站进行下载rpm包即可。 但是另外一个问题,impala的rpm包依赖非常多的其他的rpm包,可以一个个的将依赖找出来,也可以将所有的rpm包下载下来,制作成我们本地yum源来进行安装。这里就选择制作本地的yum源来进行安装。 所以首先需要下载到所有的rpm包,下载地址如下 http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz 3. 虚拟机新增磁盘(可选) 由于下载的cdh5.14.0-centos6.tar.gz包非常大,大概5个G,解压之后也最少需要5个G的空间。而我们的虚拟机磁盘有限,可能会不够用了