kudu

安装presto sql引擎访问kudu数据

好久不见. 提交于 2019-11-30 02:21:54
Presto是一种用于大数据的高性能分布式SQL查询引擎。其架构允许用户查询各种数据源,如Hadoop,AWS S3,Alluxio,MySQL,Cassandra,Kafka和MongoDB,甚至可以在单个查询中查询来自多个数据源的数据,真是功能强大。 这里梳理一下安装过程,官网 http://prestodb.github.io/ ,上篇已经写了怎么安装kudu,之下是我安装presto的过程: 在官网先下载presto-server-0.225.tar.gz和presto-cli-0.225-executable.jar 解压之后,在该文件夹下添加相应的配置: 在 presto-server-0.90 目录创建 etc 目录,并创建以下文件: node.properties :每个节点的环境配置 jvm.config :jvm 参数 config.properties :配置 Presto Server 参数 log.properties :配置日志等级 Catalog Properties :Catalog 的配置 etc/node.properties 示例配置如下: node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/presto/data

spark-sql实现Kudu同步数据到mysql

邮差的信 提交于 2019-11-29 18:10:43
Kudu同步数据到mysql实施方案 简介 目前kudu导出到mysql没有比较好的方案,临时借助spark-sql进行数据导出,处理逻辑是会把老的数据给删除再导入,已经完成了生产环境的上线。 需要传入的参数程序参数 参数序号 字段含义 备注 1 同步的source表(含schema),必选 eg:yjp_crm.dm_bizuser_dealorderflag 2 同步的target表(含schema),必选 eg:yjp_warehouse.dm_bizuser_lastmonthdeal 3 天/月调度,必选 day/month,二选一 4 用于条件过滤的单列名,必选 一般为时间列的列名 5 具体过滤的时间,可选 不填,默认为昨天(前一月),yyyyMMdd(yyyyMM),如果是启调度任务,就不用填写,手工重跑任务需要配置 部署 代码 import java.sql.{Connection, DriverManager} import java.text.SimpleDateFormat import java.util.{Calendar, Date, Properties} import org.apache.spark.sql.{SaveMode, SparkSession} import org.slf4j.LoggerFactory /** * Created

0020-使用JDBC向Kudu表插入中文字符-双引号的秘密

江枫思渺然 提交于 2019-11-29 11:11:01
1.问题描述 使用Impala JDBC向Kudu表中插入中文字符,插入的中文字符串乱码,中文字符串被截断。 2.问题复现 测试环境: CDH5.12.0 Kudu1.4.0 ImpalaJDBC41_2.5.35 1.使用ImpalaJDBC代码进行测试,测试代码 static String JDBC_DRIVER = "com.cloudera.impala.jdbc41.Driver"; static String CONNECTION_URL = "jdbc:impala://ip-172-31-10-118:21050/default"; public static void main(String[] args) { Connection con = null; ResultSet rs = null; PreparedStatement ps = null; try { Class.forName(JDBC_DRIVER); con = DriverManager.getConnection(CONNECTION_URL); String insertsql = "insertinto my_first_table values(46, '测试中文字符')"; ps = con.prepareStatement(insertsql); ps.execute(); ps

metabse 集成 presto 数据分析

与世无争的帅哥 提交于 2019-11-29 07:51:31
上一篇记录了怎么安装 presto 引擎集成 kudu 数据( presto 安装集成 kudu ),现在需要将数据展示出来,供其他的研究人员做数据分析,这里比较好用的工具是 metabse,可以集成多种数据库。 使用起来也是很方便的,这里使用docker安装:docker run -d -p 3000:3000 --name metabase metabase/metabase 然后我们可以在浏览器输出 ip:3000,可以获取这样的页面,然后我们添加数据源,这里我添加presto的kudu,其他的添加起来也很方便 其他的就是对表数据的操作了,然后好像没什么好细说的,什么聚合,过滤等等的数据操作 当然你也可以选择直接写sql的方式: 这里就简单介绍一下这个工具,希望产品自己可以用用这个工具,分析数据,导出数据,如果数据比较复杂那么维护一个大表吧,比如通过 presto 接入多个数据源,然后让使用方玩数据吧! 这里就简单介绍一下 metabse 的安装和使用,为把数据从 kudu -> presto -> metabse 画上句号! 未完待续! 参考: https://metabase.com/ 来源: https://my.oschina.net/u/2277632/blog/3103311

安装presto sql引擎访问kudu数据

穿精又带淫゛_ 提交于 2019-11-29 07:43:48
Presto是一种用于大数据的高性能分布式SQL查询引擎。其架构允许用户查询各种数据源,如Hadoop,AWS S3,Alluxio,MySQL,Cassandra,Kafka和MongoDB,甚至可以在单个查询中查询来自多个数据源的数据,真是功能强大。 这里梳理一下安装过程,官网 http://prestodb.github.io/ ,上篇已经写了怎么安装kudu,之下是我安装presto的过程: 在官网先下载presto-server-0.225.tar.gz和presto-cli-0.225-executable.jar 解压之后,在该文件夹下添加相应的配置: 在 presto-server-0.90 目录创建 etc 目录,并创建以下文件: node.properties :每个节点的环境配置 jvm.config :jvm 参数 config.properties :配置 Presto Server 参数 log.properties :配置日志等级 Catalog Properties :Catalog 的配置 etc/node.properties 示例配置如下: node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/presto/data

kudu的安装与简单使用

≯℡__Kan透↙ 提交于 2019-11-29 03:33:04
Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。 我们需要在我们的源中添加kudu数据源 http://archive.cloudera.com/kudu/ubuntu/xenial/amd64/kudu/cloudera.list ,加入到添加到/etc/apt/sources.list中: 然后我们添加公钥,下载 http://cloudera-fastly-s3-2.s3-website-us-west-1.amazonaws.com/kudu/ubuntu/xenial/amd64/kudu/archive.key ,使用sudo apt-key add archive.key,然后使用sudo apt update更新,如果出现错误,检查一下版本是否对。 然后我们就可以简单的使用apt来安装了: sudo apt-get install kudu # Base Kudu files sudo apt-get install kudu-master # Service scripts for managing kudu-master sudo apt-get

How do I deploy an Azure WebJob alongside a .NET Core Web App via Git?

人走茶凉 提交于 2019-11-28 20:37:58
I thought this would be a pretty straightforward task and there is quite a bit of documentation out there but I've had zero luck with any of it and am assuming that it is pretty much all out of date. I have .NET Core MVC 6 Web App that I've been developing for a while and need to set up a WebJob for it on Azure. I want to deploy this alongside the app using the continuous deployment system Azure provides that the app is already using. According to Kudu docs it's possible: https://github.com/projectkudu/kudu/wiki/Web-Jobs#deploying-net-console-webjobs-alongside-an-aspnet-application Which

0021-使用JDBC向Kudu表插入中文字符-cast的秘密

。_饼干妹妹 提交于 2019-11-28 12:48:07
1.问题描述 使用Impala JDBC向Kudu表中插入中文字符,插入的中文字符串乱码,中文字符串被截断。 继之前文档使用sql拼接方式插入中文字符串乱码解决方法后,此文档描述使用jdbc的PreparedStatement方式插入中文字符串乱码问题。 2.问题复现 测试环境: CDH5.12.0 Kudu1.4.0 ImpalaJDBC41_2.5.35 1.使用ImpalaJDBC代码进行测试,测试代码 staticString JDBC_DRIVER ="com.cloudera.impala.jdbc41.Driver"; static String CONNECTION_URL ="jdbc:impala://ip-172-31-10-118:21050/default"; public static void main(String[] args) { Connection con = null; ResultSetrs = null; PreparedStatementps = null; try { Class.forName(JDBC_DRIVER); con =DriverManager.getConnection(CONNECTION_URL); Stringsql2 = "insert into my_first_table values(?, ?)";

How to add a custom post deployment script to azure websites?

馋奶兔 提交于 2019-11-28 07:40:40
My problem is that I need to run a custom cmd file after the build. Instead of modifying the deployment scripts I just want to run few MSDOS commands to my deployment easily. The task I need to do is to run a cmd at the repository located at /source/copyextrafiles.cmd after the build succeeded. How can I achieve that? At the azure portal on the CONFIGURE tab of your website add a "app settings" entry called POST_DEPLOYMENT_ACTION with the value of source/copyextrafiles.cmd Save and the next deploy will run the cmd for you after the deploy. Here the picture: An alternative in addition to the

Kudu+Impala介绍

拟墨画扇 提交于 2019-11-28 00:01:12
Kudu+Impala介绍 概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的SQL解析引擎,其面对即席查询(Ad-Hoc Query)类请求的稳定性和速度在工业界得到过广泛的验证,Impala并没有自己的存储引擎,其负责解析SQL,并连接其底层的存储引擎。在发布之初Impala主要支持HDFS,Kudu发布之后,Impala和Kudu更是做了深度集成。 在众多大数据框架中,Impala定位类似Hive,不过Impala更关注即席查询SQL的快速解析,对于执行时间过长的SQL,仍旧是Hive更合适。对于GroupBy等SQL查询,Impala进行的是内存计算,因而Impala对机器配置要求较高,官方建议内存128G以上,此类问题Hive底层对应的是传统的MapReduce计算框架,虽然执行效率低,但是稳定性好,对机器配置要求也低。 执行效率是Impala的最大优势,对于存储在HDFS中的数据,Impala的解析速度本来就远快于Hive,有了Kudu加成之后,更是如虎添翼,部分查询执行速度差别可达百倍。 值得注意的是,Kudu和Impala的英文原意是来自非洲的两个不同品种的羚羊