Hive | 易学教程

Flink Table Api & SQL 翻译目录

阅读更多关于 Flink Table Api & SQL 翻译目录

Flink 官网 Table Api & SQL 相关文档的翻译终于完成，这里整理一个安装官网目录顺序一样的目录【翻译】Flink Table Api & SQL —— Overview 【翻译】Flink Table Api & SQL —— 概念与通用API 【翻译】Flink Table Api & SQL —— 数据类型【翻译】Flink Table Api & SQL — Streaming 概念【翻译】Flink Table Api & SQL —Streaming 概念 ——动态表【翻译】Flink Table Api & SQL —Streaming 概念 ——时间属性【翻译】Flink Table Api & SQL —Streaming 概念 ——在持续查询中 Join 【翻译】Flink Table Api & SQL —Streaming 概念 —— 时态表【翻译】Flink Table Api & SQL —Streaming 概念 —— 表中的模式匹配 Beta版【翻译】Flink Table Api & SQL —Streaming 概念 —— 查询配置【翻译】Flink Table Api & SQL —— 连接到外部系统【翻译】Flink Table Api & SQL —— Table API 【翻译】Flink Table

搭建hadoop+spark+hive环境（centos极速安装和配置spark）

阅读更多关于搭建hadoop+spark+hive环境（centos极速安装和配置spark）

总共分为三步：第一步安装配置hadoop：搭建hadoop+spark+hive环境（centos全远程hadoop极速安装及配置）第二步安装配置spark：搭建hadoop+spark+hive环境（centos极速安装和配置spark）第三步安装配置hive：搭建hadoop+spark+hive环境（centos极速安装和配置hive） I、下载并解压spark #下载spark wget --no-cookies --no-check-certificate http: // apache.claz.org/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz #解压spark tar xzf spark- 2.4 . 4 -bin-hadoop2. 7 .tgz #移动到hadoop文件夹中 mv spark-2.4.4-bin-hadoop2.7 /usr/local/hadoop/ II、配置系统环境 #编辑配置文件 vim /etc/ profile #添加下面两行 export SPARK_HOME =/usr/local/hadoop/spark- 2.4 . 4 -bin-hadoop2. 7 export PATH =/data/hadoop/spark/bin:$PATH III、修改配置文件

Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

阅读更多关于 Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

Spark SQL模块，主要就是处理跟SQL解析相关的一些内容，说得更通俗点就是怎么把一个SQL语句解析成Dataframe或者说RDD的任务。以Spark 2.4.3为例，Spark SQL这个大模块分为三个子模块，如下图所示其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架，在Hive中类似的框架是Calcite（将SQL解析成MapReduce任务）。Catalyst将SQL解析任务分成好几个阶段，这个在对应的论文中讲述得比较清楚，本系列很多内容也会参考论文，有兴趣阅读原论文的可以到这里看： Spark SQL: Relational Data Processing in Spark 。而Core模块其实就是Spark SQL主要解析的流程，当然这个过程中会去调用Catalyst的一些内容。这模块里面比较常用的类包括SparkSession，DataSet等。至于hive模块，这个不用说，肯定跟hive有关的。这个模块在本系列基本不会涉及到，就不多介绍了。值得一提的是，论文发表的时候还是在Spark1.x阶段，那个时候SQL解析成词法树用的是scala写的一个解析工具，到2.x阶段改为使用antlr4来做这部分工作（这应该算是最大的改变）。至于为什么要改，我猜是出于可读性和易用性方面的考虑，当然这个仅是个人猜测。另外，

Hive--总参

阅读更多关于 Hive--总参

参考文章: hive增删改查操作 Hiveql增删改查常用语句 Hive内部表和外部表的区别详解内部表外部表的操作与区别来源： oschina 链接： https://my.oschina.net/u/4278795/blog/3302202

Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

阅读更多关于 Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

apache Impala详细安装

阅读更多关于 apache Impala详细安装

参考文章： apache Impala详细安装（躺过最全的坑） Apache impala详细安装 impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，安装部署： 1．安装前提集群提前安装好hadoop，hive。 hadoop框架需要支持C程序访问接口 2．下载安装包、依赖包由于impala没有提供tar包进行安装，只提供了rpm包。因此在安装impala的时候，需要使用rpm包来进行安装。rpm包只有cloudera公司提供了，所以去cloudera公司网站进行下载rpm包即可。但是另外一个问题，impala的rpm包依赖非常多的其他的rpm包，可以一个个的将依赖找出来，也可以将所有的rpm包下载下来，制作成我们本地yum源来进行安装。这里就选择制作本地的yum源来进行安装。所以首先需要下载到所有的rpm包，下载地址如下 http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz 3．配置本地yum源使用sftp的方式把安装包大文件上传到服务器**/cloudera_data**目录下 cd /cloudera

centos7.5+Ambari2.7.3部署安装

阅读更多关于 centos7.5+Ambari2.7.3部署安装

--环境信息： 192.168.101.195 bd195 192.168.101.197 bd197 192.168.101.198 bd198 --安装所需的包： ambari-2.7.3.0-centos7.tar.gz HDP-3.1.0.0-centos7-rpm.tar.gz HDP-UTILS-1.1.0.22-centos7.tar.gz jdk-8u102-linux-x64.tar.gz mysql-5.7.27-1.el7.x86_64.rpm-bundle.tar 注：以下所有操作都是用root权限！一、卸载自带jdk - 所有机器 (1)查看自带JDk版本 rpm -qa|grep java (2)卸载自带JDK rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.161-0.b14.el7_4.x86_64 rpm -e --nodeps java-1.8.0-openjdk-1.8.0.161-0.b14.el7_4.x86_64 (3)上传JDk并解压 jdk版本：jdk-8u102-linux-x64.tar.gz 上传JDk包至/usr/local/jdk目录下，并切换到该目录（没有jdk目录则手动创建），执行远程拷贝命令如，每个节点的jdk安装路径一样。拷贝完后解压JDK包。 scp jdk

Spark算子调优—基本的算子调优

阅读更多关于 Spark算子调优—基本的算子调优

Spark常见RDD算子调优算子调优一：mapPartitions 算子调优二：foreachPartition优化数据库操作算子调优三：filter与coalesce的配合使用算子调优四：repartition解决SparkSQL低并行度问题算子调优五：reduceByKey本地聚合算子调优一：mapPartitions 普通的map算子对RDD中的每一个元素进行操作，而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子，假设一个partition有1万条数据，那么map算子中的function要执行1万次，也就是对每个元素进行操作。如果是mapPartition算子，由于一个task处理一个RDD的partition，那么一个task只会执行一次function，function一次接收所有的partition数据，效率比较高。比如，当要把RDD中的所有数据通过JDBC写入数据，如果使用map算子，那么需要对RDD中的每一个元素都创建一个数据库连接，这样对资源的消耗很大，如果使用mapPartitions算子，那么针对一个分区的数据，只需要建立一个数据库连接。 mapPartitions算子也存在一些缺点：对于普通的map操作，一次处理一条数据，如果在处理了2000条数据后内存不足

aaaaa

阅读更多关于 aaaaa

aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

大数据篇：Spark

阅读更多关于大数据篇：Spark

大数据篇：Spark Spark是什么 Spark是一个快速（基于内存），通用，可扩展的计算引擎，采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校，CAL的AMP实验室)，2010年开源，2013年6月进入Apach孵化器，2014年成为Apach顶级项目，目前有1000+个活跃者。就是说用Spark就对了。 Spark支持Scala，Java，R，Python语言，并提供了几十种(目前80+种)高性能的算法，这些如果让我们自己来做，几乎不可能。 Spark得到众多公司支持，如：阿里、腾讯、京东、携程、百度、优酷、土豆、IBM、Cloudera、Hortonworks等。如果没有Spark 解决MapReduce慢的问题而诞生，官网解释比同样的MapReduce任务快100倍！ spark.apache.org 1 内置模块机器学习（MLlib），图计算（GraphicX），实时处理（SparkStreaming），SQL解析（SparkSql） 1.1 集群资源管理 Spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算，为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群资源管理器上运行，目前支持的3种如下：（上图中下三个） Hadoop YARN（国内几乎都用） Apach Mesos（国外使用较多）

订阅 Hive