好程序员分享大数据的架构体系
flume 采集数据 MapReduce HBse (HDFS) Yarn 资源调度系统 展示平台 数据平台 1 ,提交任务 2 ,展示结果数据 spark 分析引擎 S3 可以进行各种的数据分析 , 可可以和 hive 进行整合 , spark 任务可以运行在 Yarn 提交任务到集群的入口类 SC 为什么用 spark : 速度快,易用,通用,兼容性高 hadoop scala jdk spark 如果结果为定长的 toBuffer 编程变长的 启动流程 spark 集群启动流程 和任务提交 主节点 master 子节点 work 多台 start-all 。 sh 脚本 先启动 master 服务 启动 work master 提交注册信息 work 响应 work 会定时发送心跳信息 集群启动流程 1 、调用 start-all 脚本 ,开始启动 Master 2 、 master 启动以后, preStart 方法调用了一个定时器,定时的检查超时的 worker 3 、启动脚本会解析 slaves 配置文件,找到启动 work 的相应节点,开始启动 worker 4 、 worker 服务启动后开始调用 prestart 方法(生命周期方法)开始向所有的 master 注册 5 、 master 接收到 work 发送过来的注册信息, master