Apache Spark

从零开始搭建spark集群

谁都会走 提交于 2019-12-06 00:00:18
0.基础环境准备 准备三台机器ip192.168.213.150、192.168.213.151、192.168.213.152 操作系统:CentOS Linux release 7.5.1804 (Core) 1.安装java环境 # tar -zxvf jdk-8u231-linux-x64.tar.gz # vim /etc/profile.d/java.sh export JAVA_HOME=/usr/local/src/jdk1.8.0_231 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH export PATH=${JAVA_HOME}/bin:$PATH #source /etc/profile 请按照上面配置java环境变量,否则后面启动集群是会报如下错误 Spark , JAVA_HOME is not set 2.安装scala https://www.scala-lang.org/download/ #wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.rpm #rpm -ivh scala-2.13.1.rpm #vim /etc

提升60%基础资源利用率!中国联通的容器化大数据平台实践

巧了我就是萌 提交于 2019-12-05 21:36:39
中国联通数据中心总经理王志军在Rancher举办的ECIC大会上的演讲实录,分享了中国联通为何开始进行平台容器化并如何运用Kubernetes对9000台的服务器数据节点进行最大化利用和合理调度,进而提升了60%的基础资源利用率。 2019年6月20日,由Rancher Labs(以下简称Rancher)主办的第三届企业容器创新大会(Enterprise Container Innovation Conference, 以下简称ECIC)在北京喜来登大酒店盛大举行。本届ECIC规模宏大,全天共设置了17场主题演讲,吸引了近千名容器技术爱好者参加,超过10000名观众在线上直播平台观看了本次盛会。 来自Rancher、阿里云、百度云、平安科技、中国联通、飞贷金融科技、中国人寿、SmartX、华泰保险、厦门航空、JFrog、新东方、Cisco等十多家企业的技术负责人出席了本届ECIC,现场带来关于企业容器项目实践经验的精彩分享,为参会的容器技术爱好者带来企业容器化的经验分享。 大会现场,中国联通数据中心总经理王志军为现场容器爱好者带来了主题为《中国联通容器化大数据云平台探索与实践》 的内容分享。 中国联通是国内三大运营商之一,同时也是国内首批将大数据平台部署在容器云上的企业。关于中国联通在容器化大数据云平台上的发展和探索,王志军分享道:“通过研究、探索和实践

Spark Streaming源码解析之DAG定义

倾然丶 夕夏残阳落幕 提交于 2019-12-05 15:17:33
此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读: 此博文共分为四个部分: DAG定义 Job动态生成 数据的产生与导入 容错 1. DStream 1.1. RDD DStream和RDD关系: DStream is a continuous sequence of RDDs: generatedRDDs=new HashMap[Time,RDD[T]]() 1.1.1. 存储 存储格式 DStream内部通过一个HashMap的变量generatedRDD来记录生成的RDD: private[streaming] var generatedRDDs = new HashMap[Time, RDD[T]] () 其中 : ​ - key: time是生成当前batch的时间戳 ​ - value: 生成的RDD实例 每一个不同的 DStream 实例,都有一个自己的 generatedRDD,即每个转换操作的结果都会保留 1.1.2. 获取 1.1.2.1. getOrCompute 从rdd的map中获取:generatedRDDs.get(time).orElse map中没有则计算:val newRDD=compute(time)

Spark Streaming源码解析之Job动态生成

青春壹個敷衍的年華 提交于 2019-12-05 15:17:19
此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读: 此博文共分为四个部分: DAG定义 Job动态生成 数据的产生与导入 容错 在 Spark Streaming 程序的入口,我们都会定义一个 batchDuration,就是需要每隔多长时间就比照静态的 DStreamGraph 来动态生成一个 RDD DAG 实例。在 Spark Streaming 里,总体负责动态作业调度的具体类是 JobScheduler。 JobScheduler 有两个非常重要的成员:JobGenerator 和 ReceiverTracker。JobScheduler 将每个 batch 的 RDD DAG 具体生成工作委托给 JobGenerator,而将源头输入数据的记录工作委托给 ReceiverTracker。 1. 启动 1.1. JobScheduler job运行的总指挥是JobScheduler.start(), JobScheduler 有两个非常重要的成员:JobGenerator 和 ReceiverTracker。JobScheduler 将每个 batch 的 RDD DAG 具体生成工作委托给 JobGenerator

使用Maven导出项目依赖的jar包

一曲冷凌霜 提交于 2019-12-05 14:36:39
步骤 1、进入项目目录(有pom.xml的目录) 2、创建存放导出jar依赖包的目录 3、地址栏输入cmd,回车 4、输入导出命令,回车 mvn dependency:copy-dependencies -DoutputDirectory=dependency_lib 5、导出成功,再查看输出jar依赖包的目录 如果想查找依赖中是否存在某包:mvn dependency:tree |grep spark-core_2.1 来源: https://my.oschina.net/9199771/blog/3133507

zeppelin on CDH及配置spark查询hive表

跟風遠走 提交于 2019-12-05 13:20:09
1.下载zeppelin http://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。 2.修改配置文件 cd /zeppelin-0.7.3-bin-all/conf cp zeppelin-env.sh.template zeppelin-env.sh cp zeppelin-site.xml.template zeppelin-site.xml vim zeppelin-env.sh 添加配置如下:我的是spark2用不了spark1.6版本这个版本的zeppelin export HIVE_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hive export JAVA_HOME=/usr/java/jdk1.8.0_121 export MASTER=yarn-client export ZEPPELIN_JAVA_OPTS="-Dmaster=yarn-client -Dspark.yarn.jar=/home/zeppelin-0.7.3-bin-all/interpreter/spark/zeppelin-spark_2.11

Spark—4(Spark核心组件)

时间秒杀一切 提交于 2019-12-05 11:23:53
1、Spark Streaming Spark Sreaming基于Spark Core实现了可扩展、高吞吐和容错的 实时数据流处理 。现在支持的数据源和处理后的结果存储如下图所示。 Spark Streaming将流式计算分解成一系列短小的批处理作业。即将Spark Streaming的输入数据按照批处理尺寸(如1秒)分成一段段的数据(Stream),每一段数据都转换成Spark中的RDD,然后 将Spark Streaming中对DStream的转换操作变为Spark中对RDD的转换操作 ,将RDD经过操作变成中间结果保存在内存中,整个流式计算可以根据业务需求对中间结果进行叠加,或者存储到外部设备。如下图所示。 2、MLlib MLlib是Spark对常用的机器学习算法的实现库。 3、Spark SQL Spark SQL最常见的用途之一就是作为一个从Spark平台获取数据的渠道。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据的支持以及其他格式的支持如JSON。Spark SQL支持的数据源如下图所示。 4、GraphX Spark GraphX是Spark提供的关于图和图并行计算的API,它集ETL、试探性分析和迭代式的图计算于一体。 5、Spark的整体代码结构 参考资料: 1. Spark技术内幕,张安站 来源: oschina 链接:

数据科学. Data Science.

天涯浪子 提交于 2019-12-05 08:33:50
Python vs R和最高薪水:数据科学领域的热门趋势 一份新报告显示了数据科学工作的薪资水平和编程语言的趋势。 史蒂夫·兰格 由史蒂夫游侠 | 2019年6月19日-12:03 GMT(20:03 GMT + 08:00) | 主题:企业软件 随着公司寻求扩大对数据分析的使用,对数据科学专家的需求持续增长,需求最大的员工转移工作以大幅度提高工资。 技术共和国备忘单 如何成为一名开发人员:薪水,技能和最佳学习语言 根据技术招聘公司Harnham的数据,入门级数据科学家现在可以预期在伦敦赚取45,000英镑,在伦敦以外地区赚取34,000英镑,而最高级的董事级别数据科学家可以预期在伦敦赚取平均140,000英镑。资本-尽管要达到这个资历水平需要花10到15年的时间。最近发表的其他研究表明,对于某些IT工作者而言,一旦考虑到生活成本,在伦敦以外的地方工作可能是更好的选择。 SEE: Python吞噬着世界:一个开发人员的副项目如何成为地球上最热门的编程语言(封面故事PDF) (TechRepublic) 定量分析师的薪水略高-入门级职位的薪资为55,000英镑,首都的薪资为155,000英镑。机器学习工程师可以期望获得与数据科学家相同的收入。这家招聘公司表示,公司的多元化已经大大增加了他们的团队,并雇用了特定的角色来专注于深度学习,计算机视觉和自然语言处理。 也许是由于需求如此之高

数据科学. Data Science.

耗尽温柔 提交于 2019-12-05 08:30:34
Python vs R和最高薪水:数据科学领域的热门趋势 一份新报告显示了数据科学工作的薪资水平和编程语言的趋势。 史蒂夫·兰格 由史蒂夫游侠 | 2019年6月19日-12:03 GMT(20:03 GMT + 08:00) | 主题:企业软件 随着公司寻求扩大对数据分析的使用,对数据科学专家的需求持续增长,需求最大的员工转移工作以大幅度提高工资。 技术共和国备忘单 如何成为一名开发人员:薪水,技能和最佳学习语言 根据技术招聘公司Harnham的数据,入门级数据科学家现在可以预期在伦敦赚取45,000英镑,在伦敦以外地区赚取34,000英镑,而最高级的董事级别数据科学家可以预期在伦敦赚取平均140,000英镑。资本-尽管要达到这个资历水平需要花10到15年的时间。最近发表的其他研究表明,对于某些IT工作者而言,一旦考虑到生活成本,在伦敦以外的地方工作可能是更好的选择。 SEE: Python吞噬着世界:一个开发人员的副项目如何成为地球上最热门的编程语言(封面故事PDF) (TechRepublic) 定量分析师的薪水略高-入门级职位的薪资为55,000英镑,首都的薪资为155,000英镑。机器学习工程师可以期望获得与数据科学家相同的收入。这家招聘公司表示,公司的多元化已经大大增加了他们的团队,并雇用了特定的角色来专注于深度学习,计算机视觉和自然语言处理。 也许是由于需求如此之高