spark书籍 | 易学教程

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

【推荐阅读】微服务还能火多久？>>> 此时重启IDEA: 此时重启IDEA: 重启后进入如下界面： Step 4 ：在IDEA中编写Scala代码：首先在进入在我们前一步的进入界面中选择“Create New Project”：此时选在左侧列表中的“Scala”选项：为了方便以后的开发工作，我们选择右侧的“SBT”选项：点击“Next”进入下一步，设置Scala工程的名称和目录：点击“Finish”完成工程的创建：由于我们在前面选择了“SBT”选择，所以IDEA此时智能的帮助我们构建SBT工具：我们点击工程名称“HelloScala”： IDEA自动完成SBT工具的安装需要一段时间，家林这里花了大约5分钟的时间，SBT好后SBT会自动帮我们建立好一些目录：此时右击src下的main下的scala在弹出的“New”下选择“Scala Class” 输入文件名称：把Kinde选择为“Object”：点击“OK”完成：来源： oschina 链接： https://my.oschina.net/u/1791057/blog/316982

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（1）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（1）

第一步：通过Spark的shell测试Spark的工作 Step1: 启动Spark集群，这一点在第三讲讲的极为细致，启动后的WebUI如下： Step2: 启动Spark Shell：此时可以通过如下Web控制台查看shell的情况： Step3: 把Spark安装目录“README.md”拷贝到HDFS系统上在Master节点上新启动一个命令终端，并进入到Spark安装目录下：我们把文件拷贝到HDFS的root文件夹下：此时，我们观察一下Web控制台，会发现该文件已经成功上传到HDFS上： Step4: 在Spark shell之下操作编写代码，操作我们上传的“README.md”：首先，我们看一下在Shell环境下的“sc”这个自动帮助我们生产的环境变量：可以看出sc就是SparkContext的实例，这是在启动Spark Shell的时候系统帮助我们自动生成的，SparkContext是把代码提交到集群或者本地的通道，我们编写Spark代码，无论是要运行本地还是集群都必须有SparkContext的实例。接下来，我们读取“README.md”这个文件：我们把读取的内容保存给了file这个变量，其实file是一个MappedRDD，在Spark的代码编写中，一切都是基于RDD操作的；再接下来，我们从读取的文件中过滤出所有的“Spark”这个词

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（2）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（2）

安装Spark Master、Slave1、Slave2这三台机器上均需要安装Spark。首先在Master上安装Spark，具体步骤如下：第一步：把Master上的Spark解压：我们直接解压到当前目录下：此时，我们创建Spark的目录“/usr/local/spark”: 把解压后的“spark-1.0.0-bin-hadoop1”复制到/usr/local/spark”下面：第二步：配置环境变量进入配置文件：在配置文件中加入“SPARK_HOME”并把spark的bin目录加到PATH中：配置后保存退出，然后使配置生效：第三步：配置Spark 进入Spark的conf目录：在配置文件中加入“SPARK_HOME”并把spark的bin目录加到PATH中：把spark-env.sh.template 拷贝到spark-env.sh：在配置文件中添加如下配置信息: 其中： JAVA_HOME:指定的是Java的安装目录； SCALA_HOME:指定的是Scala的安装目录； SPARK_MASTER_IP:指定的是Spark集群的Master节点的IP地址； SPARK_WORKER_MEMOERY:指定的Worker节点能够最大分配给Excutors的内存大小，因为我们的三台机器配置都是2g，为了最充分的使用内存，这里设置为了2g； HADOOP

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

第一步：构造分布式Hadoop2.2.0集群 1,在Windows 7（本教程中的Spark集群运行的机器是8G的Windows内存）上安装VMware虚拟机（我们安装的是VMware-workstation-full-9.0.2），本教程中的VMware Workstation下载地址： https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&productId=293&rPId=3526 2,在VMvare中装三台Ubuntu机器（我们使用的是ubuntu-12.10-desktop-i386），每台机器分配2G的内存，本教程中Ubuntu下载地址： http://www.ubuntu.org.cn/download/desktop/alternative-downloads ;font-� � l : ��E 0D �黑","sans-serif"'> 1,在Windows 7（本教程中的Spark集群运行的机器是8G的Windows内存）上安装VMware虚拟机（我们安装的是VMware-workstation-full-9.0.2），本教程中的VMware Workstation下载地址： https://my.vmware.com/cn/web/vmware/details

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

4. 测试Hadoop分布式集群环境；首先在通过Master节点格式化集群的文件系统：输入“Y”完成格式化：格式化完成以后，我们启动hadoop集群我们在尝试一下停止Hadoop集群：此时出现了“no datanode to stop”的错误，出现这种错误的原因如下：每次使用 “hadoop namenode -format”命令格式化文件系统的时候会出现一个新的namenodeId，而我我们在搭建Hadoop单机伪分布式版本的时候往我们自己创建的tmp目录下放了数据，现在需要把各台机器上的“/usr/local/hadoop/hadoop-1.2.1/”下面的tmp及其子目录的内容清空，于此同时把“/tmp”目录下的与hadoop相关的内容都清空，最后要把我们自定义的hdfs文件夹中的data和name文件夹中的内容清空：把Slave1和Slave2中同样的内容均删除掉。重新格式化并重新启动集群，此时进入Master的Web控制台：此时可以看到Live Nodes只有三个，这正是我们预期的，因为我们Master、Slave1、Slave2都设置成为了DataNode，当然Master本身同时也是NameNode。此时我们通过JPS命令查看一下三台机器中的进程信息：发现Hadoop集群的各种服务都正常启动。至此，Hadoop集群构建完毕。来源：

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

第四步：通过Spark的IDE搭建并测试Spark开发环境 Step 1 ：导入Spark-hadoop对应的包，次选择“File”–> “Project Structure” –> “Libraries”，选择“+”，将spark-hadoop 对应的包导入: 点击“OK”确认：点击“OK”: IDEA工作完成后会发现Spark的jar包导入到了我们的工程中： Step 2：开发第一个Spark程序。打开Spark自带的Examples目录：此时发现内部有很多文件，这些都是Spark给我提供的实例。在我们的在我们的第一Scala工程的src下创建一个名称为SparkPi的Scala的object：此时打开Spark自带的Examples下的SparkPi文件：我们把该文的内容直接拷贝到IDEA中创建的SparkPi中：来源： oschina 链接： https://my.oschina.net/u/1791057/blog/318518

【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount（2）

阅读更多关于【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount（2）

执行文件拷贝操作拷贝后的“input”文件夹的内容如下所示：和我们的hadoop安装目录下的“conf”文件的内容是一样的。现在，在我们刚刚构建的伪分布式模式下运行wordcount程序：运行完成后我们查看一下输出的结果：部分统计结果如下：此时我们到达Hadoop的web控制台会发现我们提交并成功的运行了任务：最后在Hadoop执行完任务后，可以关闭Hadoop后台服务：至此，Hadoop伪分布式环境的搭建和测试你完全成功！至此，我们彻底完成了实验。来源： oschina 链接： https://my.oschina.net/u/1791057/blog/307093

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

阅读更多关于 Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈大数据的概念与应用，正随着智能手机、平板电脑的快速流行而日渐普及，大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地应用于社交网络、电子商务，地图等领域。对于图计算的两个核心问题：图存储模式和图计算模型，Spark GraphX给出了近乎完美的答案，而Spark GraphX作为图计算领域的屠龙宝刀，对Pregel API的支持更是让Spark GraphX如虎添翼。Spark GraphX可以轻而易举的完成基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。得益于Spark的RDD抽象，Spark GraphX可以无缝的与Spark SQL、MLLib等进行结合使用，例如我们可以使用Spark SQL进行数据的ETL之后交给Spark GraphX进行处理，而Spark GraphX在计算的时候又可以和MLLib结合使用来共同完成深度数据挖掘等人工智能化的操作，这些特性都是其它图计算平台所无法比拟的。在淘宝，Spark GraphX不仅广泛应用于用户网络的社区发现、用户影响力、能量传播、标签传播等，而且也越来越多的应用到推荐领域的标签推理、人群划分、年龄段预测、商品交易时序跳转等，据淘宝的明风介绍，借助于Spark GraphX，经过半年多的尝试

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）

启动并查看集群的状况第一步：启动Hadoop集群，这个在第二讲中讲解的非常细致，在此不再赘述：启动之后在Master这台机器上使用jps命令，可以看到如下进程信息：在Slave1 和Slave2上使用jps会看到如下进程信息：第二步：启动Spark集群在Hadoop集群成功启动的基础上，启动Spark集群需要使用Spark的sbin目录下“start-all.sh”：接下来使用“start-all.sh”来启动Spark集群！读者必须注意的是此时必须写成“./start-all.sh”来表明是当前目录下的“start-all.sh”，因为我们在配置Hadoop的bin目录中也有一个“start-all.sh”文件！此时使用jps发现我们在主节点正如预期一样出现了“Master”和“Worker”两个新进程！此时的Slave1和Slave2会出现新的进程“Worker”：此时，我们可以进入Spark集群的Web页面，访问“http://Master:8080”: 如下所示：从页面上我们可以看到我们有三个Worker节点及这三个节点的信息。此时，我们进入Spark的bin目录，使用“spark-shell”控制台：此时我们进入了Spark的shell世界，根据输出的提示信息，我们可以通过“http://Master:4040”

订阅 spark书籍