spark笔记01
day7 hadoop 离线数据分析 批量; spark 【spark】 * 环境配置: 安装spark - Local本地模式 ok * spark学习 @Scala环境: 1 shell交互环境 启动:spark-shell;(默认进入且自带): 命令学习: 实验案例: 1 wordcount: textFile("input"):读取本地文件input文件夹数据; flatMap(_.split(" ")):压平操作,按照空格分割符将一行数据映射成一个个单词; map((_,1)):对每一个元素操作,将单词映射为元组; reduceByKey(_+_):按照key将值进行聚合,相加; collect:将数据收集到Driver端展示。 *** RDD: 1 RDD认识: 概念认知: 分布式对象集合; 本质上是一个只读的分区记录集合,每个RDD可以分成多个分区, 每个分区就是一个数据集片段, 并且一个RDD的不同分区可以被保存到集群中不同的节点上, 从而可以在集群中的不同节点上进行并行计算 弹性数据集; RDD提供了一种高度受限的共享内存模型????; RDD提供了一组丰富的操作以支持常见的数据运算; 只读 操作理解: 创建: 转换:理解 - 输入RDD,输出RDD;存在“父子”依赖关系 具体:父子RDD分区的对应关系; 行动:理解 - 输入RDD,输出值; 官方性名词理解: