Apache Spark | 易学教程

大数据处理引擎Spark与Flink对比分析！

阅读更多关于大数据处理引擎Spark与Flink对比分析！

大数据技术正飞速地发展着，催生出一代又一代快速便捷的大数据处理引擎，无论是Hadoop、Storm，还是后来的Spark、Flink。然而，毕竟没有哪一个框架可以完全支持所有的应用场景，也就说明不可能有任何一个框架可以完全取代另一个。今天，大圣众包威客平台（ www.dashengzb.cn ）将从几个项出发着重对比Spark与Flink这两个大数据处理引擎，探讨其两者的区别。　　一、Spark与Flink几个主要项目的对比与分析　　1.性能对比　　测试环境：　　CPU：7000个　　内存：单机128GB 　　版本：Hadoop 2.3.0，Spark 1.4，Flink 0.9 　　数据：800MB，8GB，8TB 　　算法：K-means：以空间中K个点为中心进行聚类，对最靠近它们的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果　　迭代：K=10，3组数据　　相同点：Spark与Flink都运行在Hadoop YARN上，两者都拥有非常好的计算性能，因为两者都可以基于内存计算框架以进行实时计算。　　相异点：结合上图三者的迭代次数（纵坐标是秒，横坐标是次数）图表观察，可得出在性能上，呈现Flink > Spark > Hadoop（MR）的结果，且迭代次数越多越明显。Flink之所以优于Spark和Hadoop

Spark2.0 yarn方式启动报错

阅读更多关于 Spark2.0 yarn方式启动报错

背景：升级spark 由1.5版本的spark升级至2.0版本，将编译好的2.0版本spark软件包放到指定目录下，解压替换原先1.5版本的spark $ spark-sql --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ Branch Compiled by user jenkins on 2016-07-19T21:16:08Z Revision Url Type --help for more information. 替换目录注意事项： 1、配置文件需要替换的配置文件： slaves ---所有worker的节点 spark-defaults.conf --spark启动配置文件 spark-env.sh --spark启动环境变量 log4j.properties --spark启动日志情况 hive-site.xml --hive的配置文件，此处可以直接从hive配置里拷贝一份或者直接建立软链接 $ ln -s $HIVE_HOME/conf/hive-site.xml hive-site.xml 2、软件包重点注意：由于hive使用的元数据库为mysql

0030-如何在CDH中安装Kudu&Spark2&Kafka

阅读更多关于 0030-如何在CDH中安装Kudu&Spark2&Kafka

1.概述在CDH的默认安装包中，是不包含Kafka，Kudu和Spark2的，需要单独下载特定的Parcel包才能安装相应服务。本文档主要描述在离线环境下，在CentOS6.5操作系统上基于CDH5.12.1集群，使用Cloudera Manager通过Parcel包方式安装Kudu、Spark2和Kafka的过程。内容概括 Kudu安装 Spark2安装 Kafka安装服务验证测试环境操作系统版本：CentOS6.5 CM和CDH版本5.12.1 使用CM管理员admin用户操作系统采用root用户操作前置条件 CDH集群运行正常 2.Kudu安装 CDH5.12.1打包集成Kudu1.4，并且Cloudera提供官方支持。不再需要安装Kudu的csd文件，安装完Kudu，Impala即可直接操作Kudu。以下安装步骤描述如何使用Cloudera Manager来安装和部署Kudu1.4 2.1Kudu的Parcel部署 1.从Cloudera官网下载Kudu的Parcel包，下载地址如下 http://archive.cloudera.com/kudu/parcels/5.12.1/KUDU-1.4.0-1.cdh5.12.1.p0.10-el6.parcel http://archive.cloudera.com/kudu/parcels/5.12.1

漫谈千亿级数据优化实践：数据倾斜

阅读更多关于漫谈千亿级数据优化实践：数据倾斜

0x00 前言引用数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明：话题比较大，技术要求也比较高，笔者尽最大的能力来写出自己的理解，写的不对和不好的地方大家一起交流。有些例子不是特别严谨，一些小细节对文章理解没有影响，不要太在意。（比如我在算机器内存的时候，就不把Hadoop自身的进程算到使用内存中）总的来讲个人感觉写的还是比较干货的。文章结构先大致解释一下什么是数据倾斜再根据几个场景来描述一下数据倾斜产生的情况详细分析一下在Hadoop和Spark中产生数据倾斜的原因如何解决（优化）数据倾斜问题？ 0x01 什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。一、关键字：数据倾斜相信大部分做数据的童鞋们都会遇到数据倾斜，数据倾斜会发生在数据开发的各个环节中，比如：用Hive算数据的时候reduce阶段卡在99.99% 用SparkStreaming做实时算法时候，一直会有executor出现OOM的错误

spark+scala+spring整合提高搬砖效率

阅读更多关于 spark+scala+spring整合提高搬砖效率

0.背景为什么会想到把这三个整合在一起? 当然是工作中遇到不舒服的地方。最近数据的需求特别多，有时候自己定位问题也经常要跑数据，通常就是spark+scala的常规画风。虽然是提同一个jar包，但执行的每个包的路径都不一样，这就导致我要不断的去改脚本，很不舒服。提交spark job的画风通常是这样子的： spark-submit --cluster hadoop-spark2.0 \ --class com.acceml.hit.User.PvCount \ "xxx.jar" ${params1} ${params2} ${params3} spark-submit --cluster hadoop-spark2.0 \ --class com.acceml.hit.ShanghaiUser.UvCount \ "xxx.jar" ${params1} ${params2} ${params3} spark-submit --cluster hadoop-spark2.0 \ --class com.acceml.hit.User.xxx.View \ "xxx.jar" ${params1} ${params2} ${params3} 用spring整合了一下，提交一个job只要指定它执行的类名即可。如下，三条命令分别解析pv、uv、曝光... sh log_parser

全面对比，深度解析 Ignite 与 Spark

阅读更多关于全面对比，深度解析 Ignite 与 Spark

经常有人拿 Ignite 和 Spark 进行比较，然后搞不清两者的区别和联系。Ignite 和 Spark，如果笼统归类，都可以归于内存计算平台，然而两者功能上虽然有交集，并且 Ignite 也会对 Spark 进行支持，但是不管是从定位上，还是从功能上来说，它们差别巨大，适用领域有显著的区别。本文从各个方面对此进行对比分析，供各位技术选型参考。一、综述 Ignite 和 Spark 都为 Apache 的顶级开源项目，遵循 Apache 2.0 开源协议，经过多年的发展，二者都已经脱离了单一的技术组件或者框架的范畴，向着多元化的生态圈发展，并且发展速度都很快。 Ignite Ignite 技术来源于 GridGain 公司的商业产品，于 2014 年将绝大部分功能捐赠给 Apache 社区，并于 2015 年 8 月毕业成为 Apache 的顶级项目。Ignite 目前一直保持着高强度的快速迭代式开发，基本一个季度发布一个大版本，从提交数量、版本发布数量等若干指标来评估，一直保持在 Apache 社区 300 多个开源项目的前五位。目前已经聚拢了来自多家组织或公司的众多开发者，处于非常活跃的状态，开发者社区和产品生态正在形成中。 Spark 作为 Hadoop 生态圈重要成员的 Spark 于 2009 年由 Matei Zaharia 在加州大学伯克利分校 AMPLab

Openfire+Spark+Fastpath在线客服系统开发

阅读更多关于 Openfire+Spark+Fastpath在线客服系统开发

总结如下：安装Openfire&Spark，Openfire服务器端，Spark为客户端； Openfire需要安装Fastpath插件，并将webchat部署到服务器； Fastpath分为服务端和Web客户端，服务端作为Openfire插件和Openfire集成，Web客户端需要单独的部署； Openfire 需要创建组，加入用户，且用户登录后，需要连接到该组；页面嵌入客户端： <script language="JavaScript" type="text/javascript" src="http://yuming/webchat/jivelive.jsp"></script> <script> showChatButton('dengs@workgroup.域名'); </script> 需要注意：服务端需要开放5222端口，不然spark连接不上。来源： oschina 链接： https://my.oschina.net/u/560530/blog/285999

Storm与Spark、Hadoop框架对比

阅读更多关于 Storm与Spark、Hadoop框架对比

Storm与Spark、Hadoop三种框架对比 Storm与Spark、Hadoop这三种框架，各有各的优点，每个框架都有自己的最佳应用场景。所以，在不同的应用场景下，应该选择不同的框架。 1.Storm是最佳的流式计算框架，Storm由Java和Clojure写成，Storm的优点是全内存计算，所以它的定位是分布式实时计算系统，按照Storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。 Storm的适用场景： 1）流数据处理 Storm可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去。 2）分布式RPC。由于Storm的处理组件是分布式的，而且处理延迟极低，所以可以作为一个通用的分布式RPC框架来使用。 2.Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发，类似于Hadoop MapReduce的通用并行计算框架，Spark基于Map Reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。 Spark的适用场景： 1

Spark Streaming + Kafka Integration Guide

阅读更多关于 Spark Streaming + Kafka Integration Guide

The Spark Streaming integration for Kafka 0.10 is similar in design to the 0.8 Direct Stream approach . It provides simple parallelism, 1:1 correspondence between Kafka partitions and Spark partitions, and access to offsets and metadata. However, because the newer integration uses the new Kafka consumer API instead of the simple API, there are notable differences in usage. This version of the integration is marked as experimental, so the API is potentially subject to change. Linking For Scala/Java applications using SBT/Maven project definitions, link your streaming application with the

Kylin2.5.0环境搭建及操作记录

阅读更多关于 Kylin2.5.0环境搭建及操作记录

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。伪分布式环境搭建 hadoop-2.7.7安装 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html hive2.1.1 https://my.oschina.net/peakfang/blog/2236971 hbase1.2.6 http://hbase.apache.org/book.html#_introduction kylin-2.2.0 http://kylin.apache.org/docs/install/index.html 如果所用的spark为（hive on spark）源码编译不带hive jar包，或者1.6.3版本时，因SPARK_HOME目录下无jars目录，启动kylin时会报如下错误 find: ‘/usr/local/spark-1.6.3/jars’: No such file or directory [root@node222 local]# vi kylin-2.5.0/bin

订阅 Apache Spark