spark热点 | 易学教程

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

【推荐阅读】微服务还能火多久？>>> 此时重启IDEA: 此时重启IDEA: 重启后进入如下界面： Step 4 ：在IDEA中编写Scala代码：首先在进入在我们前一步的进入界面中选择“Create New Project”：此时选在左侧列表中的“Scala”选项：为了方便以后的开发工作，我们选择右侧的“SBT”选项：点击“Next”进入下一步，设置Scala工程的名称和目录：点击“Finish”完成工程的创建：由于我们在前面选择了“SBT”选择，所以IDEA此时智能的帮助我们构建SBT工具：我们点击工程名称“HelloScala”： IDEA自动完成SBT工具的安装需要一段时间，家林这里花了大约5分钟的时间，SBT好后SBT会自动帮我们建立好一些目录：此时右击src下的main下的scala在弹出的“New”下选择“Scala Class” 输入文件名称：把Kinde选择为“Object”：点击“OK”完成：来源： oschina 链接： https://my.oschina.net/u/1791057/blog/316982

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（1）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（1）

第一步：通过Spark的shell测试Spark的工作 Step1: 启动Spark集群，这一点在第三讲讲的极为细致，启动后的WebUI如下： Step2: 启动Spark Shell：此时可以通过如下Web控制台查看shell的情况： Step3: 把Spark安装目录“README.md”拷贝到HDFS系统上在Master节点上新启动一个命令终端，并进入到Spark安装目录下：我们把文件拷贝到HDFS的root文件夹下：此时，我们观察一下Web控制台，会发现该文件已经成功上传到HDFS上： Step4: 在Spark shell之下操作编写代码，操作我们上传的“README.md”：首先，我们看一下在Shell环境下的“sc”这个自动帮助我们生产的环境变量：可以看出sc就是SparkContext的实例，这是在启动Spark Shell的时候系统帮助我们自动生成的，SparkContext是把代码提交到集群或者本地的通道，我们编写Spark代码，无论是要运行本地还是集群都必须有SparkContext的实例。接下来，我们读取“README.md”这个文件：我们把读取的内容保存给了file这个变量，其实file是一个MappedRDD，在Spark的代码编写中，一切都是基于RDD操作的；再接下来，我们从读取的文件中过滤出所有的“Spark”这个词

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（1）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（1）

在VMWare 中准备第二、第三台运行Ubuntu系统的机器；在VMWare中构建第二、三台运行Ubuntu的机器和构建第一台机器完全一样，再次不在赘述。。与安装第一台Ubuntu机器不同的几点是：第一点：我们把第二、三台Ubuntu机器命名为了Slave1、Slave2，如下图所示：创建完的VMware中就有三台虚拟机了：第二点：为了简化Hadoop的配置，保持最小化的Hadoop集群，在构建第二、三台机器的时候使用相同的root超级用户的方式登录系统。 2.按照配置伪分布式模式的方式配置新创建运行Ubuntu系统的机器；按照配置伪分布式模式的方式配置新创建运行Ubuntu系统的机器和配置第一台机器完全相同，下图是家林完全安装好后的截图： 3. 配置Hadoop分布式集群环境；根据前面的配置，我们现在已经有三台运行在VMware中装有Ubuntu系统的机器，分别是：Master、Slave1、Slave2；下面开始配置Hadoop分布式集群环境： Step 1：在/etc/hostname中修改主机名并在/etc/hosts中配置主机名和IP地址的对应关系：我们把Master这台机器作为Hadoop的主节点，首先看一下Master这台机器的IP地址：可以看到当前主机的ip地址是“192.168.184.133”. 我们在/etc

2014年spark开发者大赛火热进行中！

阅读更多关于 2014年spark开发者大赛火热进行中！

“发现最有正能量的网络达人”，Spark开发者大赛火热进行！ 2014年9月30日，2014 Spark开发者大赛在北京正式启动。本次大赛由Spark亚太研究院联合国内领先的IT技术创新与发展的互联网媒体平台51CTO传媒及国内最大的IT在线教育平台51CTO学院在亚太范围内发起。面向云计算大数据从业者、Spark技术爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Spark应用高手，还是Spark源码级别大牛，都可以借助本次大赛，一展才华，就Spark技术与应用实践展开交流及切磋。 Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题，更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作，这是当今任何大数据平台都无可匹敌的优势

【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

阅读更多关于【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂【第12期互动问答分享】 Q1 ：jobserver 企业使用情况如何？中国有一家视频网站已经使用超过JobServer超过半年的时间； 2013 年和2014年Spark Summit均大力推荐使用JobServer； Q2 ：请问，jobserver是适合企业内部还是供外部客户使用（可能并发、安全有要求），还是两者ok? 目前可见的企业使用案例均是用在企业内部；如果是企业外部可以作为云服务或者大数据资源池使用； Q3 ：请问，spark 跑1T数据需要多少内存才能很快跑完这首先和程序运行时候在每台Worker上使用的内存和CPU有关，提交程序的时候可以手动配置；其次是和带宽有关系，Shuffle的要尽量减少数据； Driver 所在的机器的配置也是极为重要的，一般而言Driver所在的Client的内存和CPU根据实际情况要尽可能的更高的配置，同时，也是至关重要的Driver和Spark集群要在同一个网络环境，应为Driver要不断的task给Worker上的Executor，同时接受Driver的数据； Q4 ：我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题但是这样会影响效率怎样在效率和error之间均衡呢？ :StackOverflow

【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

阅读更多关于【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂【第13期互动问答分享】 Q1 ：tachyon+spark 框架现在有很多大公司在使用吧? Yahoo! 已经在长期大规模使用；国内也有公司在使用； Q2 ：impala 和spark sql如何选择呢？ Impala 已经被官方宣布“安乐死”，被官方温柔的放弃； Spark SQL 是Spark 的核心子框架，同时能够和图计算、机器学习框架无缝集成，强烈推荐使用！ Q3 ：如果有程序采用流式不停往tachyon 集群写数据，但tachyon内存不够怎么办？ Tachyon 数据具有Lineage ； Tachyon 中可以配置存储策 Tachyon 中可以配置存储策来源： oschina 链接： https://my.oschina.net/u/1791057/blog/317821

【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

阅读更多关于【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂【第10期互动问答分享】 Q1 ：Spark on Yarn的运行方式是什么？ Spark on Yarn 的运行方式有两种：Client和Cluster模式 Client 模式如下所示： Cluster 模式如下所示： Q2 ：Yarn的框架内部是如何实现的？ Yarn 是一个框架，内部实现好了RM和NM: 公开课：上海：9月26-28日，《决胜大数据时代：Hadoop、Yarn、Spark企业级最佳实践》北京： 10月26-28日, 《决胜大数据时代：Hadoop、Yarn、Spark企业级最佳实践》北京：11月1-3日，《决胜大数据时代：Hadoop、Yarn、Spark企业级最佳实践》来源： oschina 链接： https://my.oschina.net/u/1791057/blog/310171

【互动问答分享】第17期决胜云计算大数据时代Spark亚太研究院公益大讲堂

阅读更多关于【互动问答分享】第17期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂【第17期互动问答分享】 Q1 ：为了加快spark shuffle 的执行速度是否可以把spark_local_dirs 指向一块固态硬盘上面，这样做是否有效果。可以把spark_local_dirs指向一块固态硬盘上面,这样会非常有效的提升Spark执行速度；同时想更快的提升Spark运行速度的话可以指定多个Shuffle输出的目录，让Shuffle并行读写磁盘； Q2 ：solidation=true只是在同一机器上进行合并对吧 solidation=true 是在同一台机器上进行合并；当进行合并的时候会把属于同一个Reducer的bucket放入同一个文件，这回极大的减少Shuffler文件的数量，提升性能； Q3 ：未来spark与hadoop会共存吗 Spark 和hadoop会共存， Spark+Hadoop= A winning combination；并存的时候，Hadoop主要使用HDFS进行数据存储，Spark负责对大数据一体化多元化的计算；来源： oschina 链接： https://my.oschina.net/u/1791057/blog/333327

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（2）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（2）

安装Spark Master、Slave1、Slave2这三台机器上均需要安装Spark。首先在Master上安装Spark，具体步骤如下：第一步：把Master上的Spark解压：我们直接解压到当前目录下：此时，我们创建Spark的目录“/usr/local/spark”: 把解压后的“spark-1.0.0-bin-hadoop1”复制到/usr/local/spark”下面：第二步：配置环境变量进入配置文件：在配置文件中加入“SPARK_HOME”并把spark的bin目录加到PATH中：配置后保存退出，然后使配置生效：第三步：配置Spark 进入Spark的conf目录：在配置文件中加入“SPARK_HOME”并把spark的bin目录加到PATH中：把spark-env.sh.template 拷贝到spark-env.sh：在配置文件中添加如下配置信息: 其中： JAVA_HOME:指定的是Java的安装目录； SCALA_HOME:指定的是Scala的安装目录； SPARK_MASTER_IP:指定的是Spark集群的Master节点的IP地址； SPARK_WORKER_MEMOERY:指定的Worker节点能够最大分配给Excutors的内存大小，因为我们的三台机器配置都是2g，为了最充分的使用内存，这里设置为了2g； HADOOP

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

阅读更多关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

第一步：构造分布式Hadoop2.2.0集群 1,在Windows 7（本教程中的Spark集群运行的机器是8G的Windows内存）上安装VMware虚拟机（我们安装的是VMware-workstation-full-9.0.2），本教程中的VMware Workstation下载地址： https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&productId=293&rPId=3526 2,在VMvare中装三台Ubuntu机器（我们使用的是ubuntu-12.10-desktop-i386），每台机器分配2G的内存，本教程中Ubuntu下载地址： http://www.ubuntu.org.cn/download/desktop/alternative-downloads ;font-� � l : ��E 0D �黑","sans-serif"'> 1,在Windows 7（本教程中的Spark集群运行的机器是8G的Windows内存）上安装VMware虚拟机（我们安装的是VMware-workstation-full-9.0.2），本教程中的VMware Workstation下载地址： https://my.vmware.com/cn/web/vmware/details

订阅 spark热点