spark教程

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

4. 测试Hadoop分布式集群环境；首先在通过Master节点格式化集群的文件系统：输入“Y”完成格式化：格式化完成以后，我们启动hadoop集群我们在尝试一下停止Hadoop集群：此时出现了“no datanode to stop”的错误，出现这种错误的原因如下：每次使用 “hadoop namenode -format”命令格式化文件系统的时候会出现一个新的namenodeId，而我我们在搭建Hadoop单机伪分布式版本的时候往我们自己创建的tmp目录下放了数据，现在需要把各台机器上的“/usr/local/hadoop/hadoop-1.2.1/”下面的tmp及其子目录的内容清空，于此同时把“/tmp”目录下的与hadoop相关的内容都清空，最后要把我们自定义的hdfs文件夹中的data和name文件夹中的内容清空：把Slave1和Slave2中同样的内容均删除掉。重新格式化并重新启动集群，此时进入Master的Web控制台：此时可以看到Live Nodes只有三个，这正是我们预期的，因为我们Master、Slave1、Slave2都设置成为了DataNode，当然Master本身同时也是NameNode。此时我们通过JPS命令查看一下三台机器中的进程信息：发现Hadoop集群的各种服务都正常启动。至此，Hadoop集群构建完毕。来源：

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

第四步：通过Spark的IDE搭建并测试Spark开发环境 Step 1 ：导入Spark-hadoop对应的包，次选择“File”–> “Project Structure” –> “Libraries”，选择“+”，将spark-hadoop 对应的包导入: 点击“OK”确认：点击“OK”: IDEA工作完成后会发现Spark的jar包导入到了我们的工程中： Step 2：开发第一个Spark程序。打开Spark自带的Examples目录：此时发现内部有很多文件，这些都是Spark给我提供的实例。在我们的在我们的第一Scala工程的src下创建一个名称为SparkPi的Scala的object：此时打开Spark自带的Examples下的SparkPi文件：我们把该文的内容直接拷贝到IDEA中创建的SparkPi中：来源： oschina 链接： https://my.oschina.net/u/1791057/blog/318518

【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount（2）

阅读更多关于【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount（2）

执行文件拷贝操作拷贝后的“input”文件夹的内容如下所示：和我们的hadoop安装目录下的“conf”文件的内容是一样的。现在，在我们刚刚构建的伪分布式模式下运行wordcount程序：运行完成后我们查看一下输出的结果：部分统计结果如下：此时我们到达Hadoop的web控制台会发现我们提交并成功的运行了任务：最后在Hadoop执行完任务后，可以关闭Hadoop后台服务：至此，Hadoop伪分布式环境的搭建和测试你完全成功！至此，我们彻底完成了实验。来源： oschina 链接： https://my.oschina.net/u/1791057/blog/307093

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

阅读更多关于 Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈大数据的概念与应用，正随着智能手机、平板电脑的快速流行而日渐普及，大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地应用于社交网络、电子商务，地图等领域。对于图计算的两个核心问题：图存储模式和图计算模型，Spark GraphX给出了近乎完美的答案，而Spark GraphX作为图计算领域的屠龙宝刀，对Pregel API的支持更是让Spark GraphX如虎添翼。Spark GraphX可以轻而易举的完成基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。得益于Spark的RDD抽象，Spark GraphX可以无缝的与Spark SQL、MLLib等进行结合使用，例如我们可以使用Spark SQL进行数据的ETL之后交给Spark GraphX进行处理，而Spark GraphX在计算的时候又可以和MLLib结合使用来共同完成深度数据挖掘等人工智能化的操作，这些特性都是其它图计算平台所无法比拟的。在淘宝，Spark GraphX不仅广泛应用于用户网络的社区发现、用户影响力、能量传播、标签传播等，而且也越来越多的应用到推荐领域的标签推理、人群划分、年龄段预测、商品交易时序跳转等，据淘宝的明风介绍，借助于Spark GraphX，经过半年多的尝试

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）

启动并查看集群的状况第一步：启动Hadoop集群，这个在第二讲中讲解的非常细致，在此不再赘述：启动之后在Master这台机器上使用jps命令，可以看到如下进程信息：在Slave1 和Slave2上使用jps会看到如下进程信息：第二步：启动Spark集群在Hadoop集群成功启动的基础上，启动Spark集群需要使用Spark的sbin目录下“start-all.sh”：接下来使用“start-all.sh”来启动Spark集群！读者必须注意的是此时必须写成“./start-all.sh”来表明是当前目录下的“start-all.sh”，因为我们在配置Hadoop的bin目录中也有一个“start-all.sh”文件！此时使用jps发现我们在主节点正如预期一样出现了“Master”和“Worker”两个新进程！此时的Slave1和Slave2会出现新的进程“Worker”：此时，我们可以进入Spark集群的Web页面，访问“http://Master:8080”: 如下所示：从页面上我们可以看到我们有三个Worker节点及这三个节点的信息。此时，我们进入Spark的bin目录，使用“spark-shell”控制台：此时我们进入了Spark的shell世界，根据输出的提示信息，我们可以通过“http://Master:4040”

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第二步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（7）

【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount（2）

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第三步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）