Hive

Flink Table Api & SQL 翻译目录

六月ゝ 毕业季﹏ 提交于 2020-04-24 06:23:06
Flink 官网 Table Api & SQL 相关文档的翻译终于完成,这里整理一个安装官网目录顺序一样的目录 【翻译】Flink Table Api & SQL —— Overview 【翻译】Flink Table Api & SQL —— 概念与通用API 【翻译】Flink Table Api & SQL —— 数据类型 【翻译】Flink Table Api & SQL — Streaming 概念 【翻译】Flink Table Api & SQL —Streaming 概念 ——动态表 【翻译】Flink Table Api & SQL —Streaming 概念 ——时间属性 【翻译】Flink Table Api & SQL —Streaming 概念 ——在持续查询中 Join 【翻译】Flink Table Api & SQL —Streaming 概念 —— 时态表 【翻译】Flink Table Api & SQL —Streaming 概念 —— 表中的模式匹配 Beta版 【翻译】Flink Table Api & SQL —Streaming 概念 —— 查询配置 【翻译】Flink Table Api & SQL —— 连接到外部系统 【翻译】Flink Table Api & SQL —— Table API 【翻译】Flink Table

搭建hadoop+spark+hive环境(centos极速安装和配置spark)

此生再无相见时 提交于 2020-04-23 11:12:09
总共分为三步: 第一步安装配置hadoop: 搭建hadoop+spark+hive环境(centos全远程hadoop极速安装及配置) 第二步安装配置spark: 搭建hadoop+spark+hive环境(centos极速安装和配置spark) 第三步安装配置hive: 搭建hadoop+spark+hive环境(centos极速安装和配置hive) I、下载并解压spark #下载spark wget --no-cookies --no-check-certificate http: // apache.claz.org/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz #解压spark tar xzf spark- 2.4 . 4 -bin-hadoop2. 7 .tgz #移动到hadoop文件夹中 mv spark-2.4.4-bin-hadoop2.7 /usr/local/hadoop/ II、配置系统环境 #编辑配置文件 vim /etc/ profile #添加下面两行 export SPARK_HOME =/usr/local/hadoop/spark- 2.4 . 4 -bin-hadoop2. 7 export PATH =/data/hadoop/spark/bin:$PATH III、修改配置文件

Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述

匆匆过客 提交于 2020-04-23 06:10:10
Spark SQL模块,主要就是处理跟SQL解析相关的一些内容,说得更通俗点就是怎么把一个SQL语句解析成Dataframe或者说RDD的任务。以Spark 2.4.3为例,Spark SQL这个大模块分为三个子模块,如下图所示 其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架 ,在Hive中类似的框架是Calcite(将SQL解析成MapReduce任务)。Catalyst将SQL解析任务分成好几个阶段,这个在对应的论文中讲述得比较清楚,本系列很多内容也会参考论文,有兴趣阅读原论文的可以到这里看: Spark SQL: Relational Data Processing in Spark 。 而Core模块其实就是Spark SQL主要解析的流程,当然这个过程中会去调用Catalyst的一些内容。这模块里面比较常用的类包括SparkSession,DataSet等。 至于hive模块,这个不用说,肯定跟hive有关的。这个模块在本系列基本不会涉及到,就不多介绍了。 值得一提的是,论文发表的时候还是在Spark1.x阶段,那个时候SQL解析成词法树用的是scala写的一个解析工具,到2.x阶段改为使用antlr4来做这部分工作(这应该算是最大的改变)。至于为什么要改,我猜是出于可读性和易用性方面的考虑,当然这个仅是个人猜测。 另外,

Hive--总参

时光毁灭记忆、已成空白 提交于 2020-04-23 04:38:06
参考文章: hive增删改查操作 Hiveql增删改查常用语句 Hive内部表和外部表的区别详解 内部表外部表的操作与区别 来源: oschina 链接: https://my.oschina.net/u/4278795/blog/3302202

Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述

别等时光非礼了梦想. 提交于 2020-04-23 03:54:15
Spark SQL模块,主要就是处理跟SQL解析相关的一些内容,说得更通俗点就是怎么把一个SQL语句解析成Dataframe或者说RDD的任务。以Spark 2.4.3为例,Spark SQL这个大模块分为三个子模块,如下图所示 其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架 ,在Hive中类似的框架是Calcite(将SQL解析成MapReduce任务)。Catalyst将SQL解析任务分成好几个阶段,这个在对应的论文中讲述得比较清楚,本系列很多内容也会参考论文,有兴趣阅读原论文的可以到这里看: Spark SQL: Relational Data Processing in Spark 。 而Core模块其实就是Spark SQL主要解析的流程,当然这个过程中会去调用Catalyst的一些内容。这模块里面比较常用的类包括SparkSession,DataSet等。 至于hive模块,这个不用说,肯定跟hive有关的。这个模块在本系列基本不会涉及到,就不多介绍了。 值得一提的是,论文发表的时候还是在Spark1.x阶段,那个时候SQL解析成词法树用的是scala写的一个解析工具,到2.x阶段改为使用antlr4来做这部分工作(这应该算是最大的改变)。至于为什么要改,我猜是出于可读性和易用性方面的考虑,当然这个仅是个人猜测。 另外,

apache Impala详细安装

喜欢而已 提交于 2020-04-22 01:18:05
参考文章: apache Impala详细安装(躺过最全的坑) Apache impala详细安装 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, 安装部署: 1.安装前提 集群提前安装好hadoop,hive。 hadoop框架需要支持C程序访问接口 2.下载安装包、依赖包 由于impala没有提供tar包进行安装,只提供了rpm包。因此在安装impala的时候,需要使用rpm包来进行安装。rpm包只有cloudera公司提供了,所以去cloudera公司网站进行下载rpm包即可。 但是另外一个问题,impala的rpm包依赖非常多的其他的rpm包,可以一个个的将依赖找出来,也可以将所有的rpm包下载下来,制作成我们本地yum源来进行安装。这里就选择制作本地的yum源来进行安装。 所以首先需要下载到所有的rpm包,下载地址如下 http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz 3.配置本地yum源 使用sftp的方式把安装包大文件上传到服务器**/cloudera_data**目录下 cd /cloudera

centos7.5+Ambari2.7.3部署安装

最后都变了- 提交于 2020-04-21 20:30:13
--环境信息: 192.168.101.195 bd195 192.168.101.197 bd197 192.168.101.198 bd198 --安装所需的包: ambari-2.7.3.0-centos7.tar.gz HDP-3.1.0.0-centos7-rpm.tar.gz HDP-UTILS-1.1.0.22-centos7.tar.gz jdk-8u102-linux-x64.tar.gz mysql-5.7.27-1.el7.x86_64.rpm-bundle.tar 注:以下所有操作都是用root权限! 一、卸载自带jdk - 所有机器 (1)查看自带JDk版本 rpm -qa|grep java (2)卸载自带JDK rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.161-0.b14.el7_4.x86_64 rpm -e --nodeps java-1.8.0-openjdk-1.8.0.161-0.b14.el7_4.x86_64 (3)上传JDk并解压 jdk版本:jdk-8u102-linux-x64.tar.gz 上传JDk包至/usr/local/jdk目录下,并切换到该目录(没有jdk目录则手动创建),执行远程拷贝命令如,每个节点的jdk安装路径一样。拷贝完后解压JDK包。 scp jdk

Spark算子调优—基本的算子调优

≡放荡痞女 提交于 2020-04-21 04:15:44
Spark常见RDD算子调优 算子调优一:mapPartitions 算子调优二:foreachPartition优化数据库操作 算子调优三:filter与coalesce的配合使用 算子调优四:repartition解决SparkSQL低并行度问题 算子调优五:reduceByKey本地聚合 算子调优一:mapPartitions 普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子,假设一个partition有1万条数据,那么map算子中的function要执行1万次,也就是对每个元素进行操作。 如果是mapPartition算子,由于一个task处理一个RDD的partition,那么一个task只会执行一次function,function一次接收所有的partition数据,效率比较高。 比如,当要把RDD中的所有数据通过JDBC写入数据,如果使用map算子,那么需要对RDD中的每一个元素都创建一个数据库连接,这样对资源的消耗很大,如果使用mapPartitions算子,那么针对一个分区的数据,只需要建立一个数据库连接。 mapPartitions算子也存在一些缺点:对于普通的map操作,一次处理一条数据,如果在处理了2000条数据后内存不足

aaaaa

独自空忆成欢 提交于 2020-04-21 02:52:00
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

大数据篇:Spark

我只是一个虾纸丫 提交于 2020-04-19 17:01:24
大数据篇:Spark Spark是什么 Spark是一个快速(基于内存),通用,可扩展的计算引擎,采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校,CAL的AMP实验室),2010年开源,2013年6月进入Apach孵化器,2014年成为Apach顶级项目,目前有1000+个活跃者。就是说用Spark就对了。 Spark支持Scala,Java,R,Python语言,并提供了几十种(目前80+种)高性能的算法,这些如果让我们自己来做,几乎不可能。 Spark得到众多公司支持,如:阿里、腾讯、京东、携程、百度、优酷、土豆、IBM、Cloudera、Hortonworks等。 如果没有Spark 解决MapReduce慢的问题而诞生,官网解释比同样的MapReduce任务快100倍! spark.apache.org 1 内置模块 机器学习(MLlib),图计算(GraphicX),实时处理(SparkStreaming),SQL解析(SparkSql) 1.1 集群资源管理 Spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算,为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群资源管理器上运行,目前支持的3种如下:(上图中下三个) Hadoop YARN(国内几乎都用) Apach Mesos(国外使用较多)