spark书籍

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(4)

和自甴很熟 提交于 2020-04-15 18:26:02
【推荐阅读】微服务还能火多久?>>> 此时重启IDEA: 此时重启IDEA: 重启后进入如下界面: Step 4 :在IDEA中编写Scala代码: 首先在进入在我们前一步的进入界面中选择“Create New Project”: 此时选在左侧列表中的“Scala”选项: 为了方便以后的开发工作,我们选择右侧的“SBT”选项: 点击“Next”进入下一步,设置Scala工程的名称和目录: 点击“Finish”完成工程的创建: 由于我们在前面选择了“SBT”选择,所以IDEA此时智能的帮助我们构建SBT工具: 我们点击工程名称“HelloScala”: IDEA自动完成SBT工具的安装需要一段时间,家林这里花了大约5分钟的时间,SBT好后SBT会自动帮我们建立好一些目录: 此时右击src下的main下的scala在弹出的“New”下选择“Scala Class” 输入文件名称: 把Kinde选择为“Object”: 点击“OK”完成: 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/316982

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(1)

守給你的承諾、 提交于 2020-04-07 05:50:04
第一步:通过Spark的shell测试Spark的工作 Step1: 启动Spark集群,这一点在第三讲讲的极为细致,启动后的WebUI如下: Step2: 启动Spark Shell: 此时可以通过如下Web控制台查看shell的情况: Step3: 把Spark安装目录“README.md”拷贝到HDFS系统上 在Master节点上新启动一个命令终端,并进入到Spark安装目录下: 我们把文件拷贝到HDFS的root文件夹下: 此时,我们观察一下Web控制台,会发现该文件已经成功上传到HDFS上: Step4: 在Spark shell之下操作编写代码,操作我们上传的“README.md”: 首先,我们看一下在Shell环境下的“sc”这个自动帮助我们生产的环境变量: 可以看出sc就是SparkContext的实例,这是在启动Spark Shell的时候系统帮助我们自动生成的,SparkContext是把代码提交到集群或者本地的通道,我们编写Spark代码,无论是要运行本地还是集群都必须有SparkContext的实例。 接下来,我们读取“README.md”这个文件: 我们把读取的内容保存给了file这个变量,其实file是一个MappedRDD,在Spark的代码编写中,一切都是基于RDD操作的; 再接下来,我们从读取的文件中过滤出所有的“Spark”这个词

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(2)

大憨熊 提交于 2019-12-02 05:51:44
安装Spark Master、Slave1、Slave2这三台机器上均需要安装Spark。 首先在Master上安装Spark,具体步骤如下: 第一步:把Master上的Spark解压: 我们直接解压到当前目录下: 此时,我们创建Spark的目录“/usr/local/spark”: 把解压后的“spark-1.0.0-bin-hadoop1”复制到/usr/local/spark”下面: 第二步:配置环境变量 进入配置文件: 在配置文件中加入“SPARK_HOME”并把spark的bin目录加到PATH中: 配置后保存退出,然后使配置生效: 第三步:配置Spark 进入Spark的conf目录: 在配置文件中加入“SPARK_HOME”并把spark的bin目录加到PATH中: 把spark-env.sh.template 拷贝到spark-env.sh: 在配置文件中添加如下配置信息: 其中: JAVA_HOME:指定的是Java的安装目录; SCALA_HOME:指定的是Scala的安装目录; SPARK_MASTER_IP:指定的是Spark集群的Master节点的IP地址; SPARK_WORKER_MEMOERY:指定的Worker节点能够最大分配给Excutors的内存大小,因为我们的三台机器配置都是2g,为了最充分的使用内存,这里设置为了2g; HADOOP

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(1)

谁说胖子不能爱 提交于 2019-12-02 02:48:24
第一步:构造分布式Hadoop2.2.0集群 1,在Windows 7(本教程中的Spark集群运行的机器是8G的Windows内存)上安装VMware虚拟机(我们安装的是VMware-workstation-full-9.0.2),本教程中的VMware Workstation下载地址: https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&productId=293&rPId=3526 2,在VMvare中装三台Ubuntu机器(我们使用的是ubuntu-12.10-desktop-i386),每台机器分配2G的内存,本教程中Ubuntu下载地址: http://www.ubuntu.org.cn/download/desktop/alternative-downloads ;font-� � l : ��E 0D �黑","sans-serif"'> 1,在Windows 7(本教程中的Spark集群运行的机器是8G的Windows内存)上安装VMware虚拟机(我们安装的是VMware-workstation-full-9.0.2),本教程中的VMware Workstation下载地址: https://my.vmware.com/cn/web/vmware/details

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第二步)(4)

霸气de小男生 提交于 2019-12-01 01:34:17
4. 测试Hadoop分布式集群环境; 首先在通过Master节点格式化集群的文件系统: 输入“Y”完成格式化: 格式化完成以后,我们启动hadoop集群 我们在尝试一下停止Hadoop集群: 此时出现了“no datanode to stop”的错误,出现这种错误的原因如下: 每次使用 “hadoop namenode -format”命令格式化文件系统的时候会出现一个新的namenodeId,而我我们在搭建Hadoop单机伪分布式版本的时候往我们自己创建的tmp目录下放了数据,现在需要把各台机器上的“/usr/local/hadoop/hadoop-1.2.1/”下面的tmp及其子目录的内容清空,于此同时把“/tmp”目录下的与hadoop相关的内容都清空,最后要把我们自定义的hdfs文件夹中的data和name文件夹中的内容清空: 把Slave1和Slave2中同样的内容均删除掉。 重新格式化并重新启动集群,此时进入Master的Web控制台: 此时可以看到Live Nodes只有三个,这正是我们预期的,因为我们Master、Slave1、Slave2都设置成为了DataNode,当然Master本身同时也是NameNode。 此时我们通过JPS命令查看一下三台机器中的进程信息: 发现Hadoop集群的各种服务都正常启动。 至此,Hadoop集群构建完毕。 来源:

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(7)

自作多情 提交于 2019-11-30 05:35:22
第四步:通过Spark的IDE搭建并测试Spark开发环境 Step 1 :导入Spark-hadoop对应的包,次选择“File”–> “Project Structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入: 点击“OK”确认: 点击“OK”: IDEA工作完成后会发现Spark的jar包导入到了我们的工程中: Step 2:开发第一个Spark程序。打开Spark自带的Examples目录: 此时发现内部有很多文件,这些都是Spark给我提供的实例。 在我们的在我们的第一Scala工程的src下创建一个名称为SparkPi的Scala的object: 此时打开Spark自带的Examples下的SparkPi文件: 我们把该文的内容直接拷贝到IDEA中创建的SparkPi中: 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/318518

【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount(2)

心不动则不痛 提交于 2019-11-29 06:20:58
执行文件拷贝操作 拷贝后的“input”文件夹的内容如下所示: 和我们的hadoop安装目录下的“conf”文件的内容是一样的。 现在,在我们刚刚构建的伪分布式模式下运行wordcount程序: 运行完成后我们查看一下输出的结果: 部分统计结果如下: 此时我们到达Hadoop的web控制台会发现我们提交并成功的运行了任务: 最后在Hadoop执行完任务后,可以关闭Hadoop后台服务: 至此,Hadoop伪分布式环境的搭建和测试你完全成功! 至此,我们彻底完成了实验。 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/307093

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

混江龙づ霸主 提交于 2019-11-28 20:58:55
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地应用于社交网络、电子商务,地图等领域。对于图计算的两个核心问题:图存储模式和图计算模型,Spark GraphX给出了近乎完美的答案, 而Spark GraphX作为图计算领域的屠龙宝刀,对Pregel API的支持更是让Spark GraphX如虎添翼。Spark GraphX可以轻而易举的完成基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。 得益于Spark的RDD抽象,Spark GraphX可以无缝的与Spark SQL、MLLib等进行结合使用,例如我们可以使用Spark SQL进行数据的ETL之后交给Spark GraphX进行处理,而Spark GraphX在计算的时候又可以和MLLib结合使用来共同完成深度数据挖掘等人工智能化的操作,这些特性都是其它图计算平台所无法比拟的。 在淘宝,Spark GraphX不仅广泛应用于用户网络的社区发现、用户影响力、能量传播、标签传播等,而且也越来越多的应用到推荐领域的标签推理、人群划分、年龄段预测、商品交易时序跳转等,据淘宝的明风介绍,借助于Spark GraphX,经过半年多的尝试

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(3)

a 夏天 提交于 2019-11-27 14:50:41
启动并查看集群的状况 第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述: 启动之后在Master这台机器上使用jps命令,可以看到如下进程信息: 在Slave1 和Slave2上使用jps会看到如下进程信息: 第二步:启动Spark集群 在Hadoop集群成功启动的基础上,启动Spark集群需要使用Spark的sbin目录下“start-all.sh”: 接下来使用“start-all.sh”来启动Spark集群! 读者必须注意的是此时必须写成“./start-all.sh”来表明是当前目录下的“start-all.sh”,因为我们在配置Hadoop的bin目录中也有一个“start-all.sh”文件! 此时使用jps发现我们在主节点正如预期一样出现了“Master”和“Worker”两个新进程! 此时的Slave1和Slave2会出现新的进程“Worker”: 此时,我们可以进入Spark集群的Web页面,访问“http://Master:8080”: 如下所示: 从页面上我们可以看到我们有三个Worker节点及这三个节点的信息。 此时,我们进入Spark的bin目录,使用“spark-shell”控制台: 此时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“http://Master:4040”