kudu | 易学教程

安装presto sql引擎访问kudu数据

阅读更多关于安装presto sql引擎访问kudu数据

Presto是一种用于大数据的高性能分布式SQL查询引擎。其架构允许用户查询各种数据源，如Hadoop，AWS S3，Alluxio，MySQL，Cassandra，Kafka和MongoDB，甚至可以在单个查询中查询来自多个数据源的数据，真是功能强大。这里梳理一下安装过程，官网 http://prestodb.github.io/ ，上篇已经写了怎么安装kudu，之下是我安装presto的过程：在官网先下载presto-server-0.225.tar.gz和presto-cli-0.225-executable.jar 解压之后，在该文件夹下添加相应的配置：在 presto-server-0.90 目录创建 etc 目录，并创建以下文件： node.properties ：每个节点的环境配置 jvm.config ：jvm 参数 config.properties ：配置 Presto Server 参数 log.properties ：配置日志等级 Catalog Properties ：Catalog 的配置 etc/node.properties 示例配置如下： node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/presto/data

spark-sql实现Kudu同步数据到mysql

阅读更多关于 spark-sql实现Kudu同步数据到mysql

Kudu同步数据到mysql实施方案简介目前kudu导出到mysql没有比较好的方案，临时借助spark-sql进行数据导出，处理逻辑是会把老的数据给删除再导入，已经完成了生产环境的上线。需要传入的参数程序参数参数序号字段含义备注 1 同步的source表（含schema），必选 eg:yjp_crm.dm_bizuser_dealorderflag 2 同步的target表（含schema），必选 eg:yjp_warehouse.dm_bizuser_lastmonthdeal 3 天/月调度，必选 day/month,二选一 4 用于条件过滤的单列名，必选一般为时间列的列名 5 具体过滤的时间，可选不填，默认为昨天(前一月)，yyyyMMdd(yyyyMM)，如果是启调度任务，就不用填写，手工重跑任务需要配置部署代码 import java.sql.{Connection, DriverManager} import java.text.SimpleDateFormat import java.util.{Calendar, Date, Properties} import org.apache.spark.sql.{SaveMode, SparkSession} import org.slf4j.LoggerFactory /** * Created

0020-使用JDBC向Kudu表插入中文字符-双引号的秘密

阅读更多关于 0020-使用JDBC向Kudu表插入中文字符-双引号的秘密

1.问题描述使用Impala JDBC向Kudu表中插入中文字符，插入的中文字符串乱码，中文字符串被截断。 2.问题复现测试环境： CDH5.12.0 Kudu1.4.0 ImpalaJDBC41_2.5.35 1.使用ImpalaJDBC代码进行测试，测试代码 static String JDBC_DRIVER = "com.cloudera.impala.jdbc41.Driver"; static String CONNECTION_URL = "jdbc:impala://ip-172-31-10-118:21050/default"; public static void main(String[] args) { Connection con = null; ResultSet rs = null; PreparedStatement ps = null; try { Class.forName(JDBC_DRIVER); con = DriverManager.getConnection(CONNECTION_URL); String insertsql = "insertinto my_first_table values(46, '测试中文字符')"; ps = con.prepareStatement(insertsql); ps.execute(); ps

metabse 集成 presto 数据分析

阅读更多关于 metabse 集成 presto 数据分析

上一篇记录了怎么安装 presto 引擎集成 kudu 数据（ presto 安装集成 kudu ），现在需要将数据展示出来，供其他的研究人员做数据分析，这里比较好用的工具是 metabse，可以集成多种数据库。使用起来也是很方便的，这里使用docker安装：docker run -d -p 3000:3000 --name metabase metabase/metabase 然后我们可以在浏览器输出 ip:3000，可以获取这样的页面，然后我们添加数据源,这里我添加presto的kudu，其他的添加起来也很方便其他的就是对表数据的操作了，然后好像没什么好细说的，什么聚合，过滤等等的数据操作当然你也可以选择直接写sql的方式：这里就简单介绍一下这个工具，希望产品自己可以用用这个工具，分析数据，导出数据，如果数据比较复杂那么维护一个大表吧，比如通过 presto 接入多个数据源，然后让使用方玩数据吧！这里就简单介绍一下 metabse 的安装和使用，为把数据从 kudu -> presto -> metabse 画上句号！未完待续！参考： https://metabase.com/ 来源： https://my.oschina.net/u/2277632/blog/3103311

安装presto sql引擎访问kudu数据

阅读更多关于安装presto sql引擎访问kudu数据

kudu的安装与简单使用

阅读更多关于 kudu的安装与简单使用

Apache Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展，使用Raft协议进行一致性保证，并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。我们需要在我们的源中添加kudu数据源 http://archive.cloudera.com/kudu/ubuntu/xenial/amd64/kudu/cloudera.list ，加入到添加到/etc/apt/sources.list中：然后我们添加公钥，下载 http://cloudera-fastly-s3-2.s3-website-us-west-1.amazonaws.com/kudu/ubuntu/xenial/amd64/kudu/archive.key ，使用sudo apt-key add archive.key，然后使用sudo apt update更新，如果出现错误，检查一下版本是否对。然后我们就可以简单的使用apt来安装了： sudo apt-get install kudu # Base Kudu files sudo apt-get install kudu-master # Service scripts for managing kudu-master sudo apt-get

How do I deploy an Azure WebJob alongside a .NET Core Web App via Git?

阅读更多关于 How do I deploy an Azure WebJob alongside a .NET Core Web App via Git?

I thought this would be a pretty straightforward task and there is quite a bit of documentation out there but I've had zero luck with any of it and am assuming that it is pretty much all out of date. I have .NET Core MVC 6 Web App that I've been developing for a while and need to set up a WebJob for it on Azure. I want to deploy this alongside the app using the continuous deployment system Azure provides that the app is already using. According to Kudu docs it's possible: https://github.com/projectkudu/kudu/wiki/Web-Jobs#deploying-net-console-webjobs-alongside-an-aspnet-application Which

0021-使用JDBC向Kudu表插入中文字符-cast的秘密

阅读更多关于 0021-使用JDBC向Kudu表插入中文字符-cast的秘密

1.问题描述使用Impala JDBC向Kudu表中插入中文字符，插入的中文字符串乱码，中文字符串被截断。继之前文档使用sql拼接方式插入中文字符串乱码解决方法后，此文档描述使用jdbc的PreparedStatement方式插入中文字符串乱码问题。 2.问题复现测试环境： CDH5.12.0 Kudu1.4.0 ImpalaJDBC41_2.5.35 1.使用ImpalaJDBC代码进行测试，测试代码 staticString JDBC_DRIVER ="com.cloudera.impala.jdbc41.Driver"; static String CONNECTION_URL ="jdbc:impala://ip-172-31-10-118:21050/default"; public static void main(String[] args) { Connection con = null; ResultSetrs = null; PreparedStatementps = null; try { Class.forName(JDBC_DRIVER); con =DriverManager.getConnection(CONNECTION_URL); Stringsql2 = "insert into my_first_table values(?, ?)";

How to add a custom post deployment script to azure websites?

阅读更多关于 How to add a custom post deployment script to azure websites?

My problem is that I need to run a custom cmd file after the build. Instead of modifying the deployment scripts I just want to run few MSDOS commands to my deployment easily. The task I need to do is to run a cmd at the repository located at /source/copyextrafiles.cmd after the build succeeded. How can I achieve that? At the azure portal on the CONFIGURE tab of your website add a "app settings" entry called POST_DEPLOYMENT_ACTION with the value of source/copyextrafiles.cmd Save and the next deploy will run the cmd for you after the deploy. Here the picture: An alternative in addition to the

Kudu+Impala介绍

阅读更多关于 Kudu+Impala介绍

Kudu+Impala介绍概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储，在支持高并发低延迟kv查询的同时，还保持良好的Scan性能，该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的SQL解析引擎，其面对即席查询(Ad-Hoc Query)类请求的稳定性和速度在工业界得到过广泛的验证，Impala并没有自己的存储引擎，其负责解析SQL，并连接其底层的存储引擎。在发布之初Impala主要支持HDFS，Kudu发布之后，Impala和Kudu更是做了深度集成。在众多大数据框架中，Impala定位类似Hive，不过Impala更关注即席查询SQL的快速解析，对于执行时间过长的SQL，仍旧是Hive更合适。对于GroupBy等SQL查询，Impala进行的是内存计算，因而Impala对机器配置要求较高，官方建议内存128G以上，此类问题Hive底层对应的是传统的MapReduce计算框架，虽然执行效率低，但是稳定性好，对机器配置要求也低。执行效率是Impala的最大优势，对于存储在HDFS中的数据，Impala的解析速度本来就远快于Hive，有了Kudu加成之后，更是如虎添翼，部分查询执行速度差别可达百倍。值得注意的是，Kudu和Impala的英文原意是来自非洲的两个不同品种的羚羊

订阅 kudu