sparkQA问答

【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂(改)

荒凉一梦 提交于 2019-12-03 14:49:17
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第18期互动问答分享】 Q1 :Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的; Master 位于集群的管理节点,一般和 NameNode在同一个节点上; Driver 一般都位于客户机上,客户机一般都不属于集群,但是和集群在同一个网络环境下,因为客户机中的Driver要和集群中的Executor频繁的交互; Q2 :Standalone和Yarn之间如何选择 Standalone 和Yarn都是用于资源管理的系统,Standalone是专门为Spark打造的资源管理和分配方式,是轻量级的,而Yarn是大数据通用的资源管理框架,不仅可以用于管理Spark顶点资源分配,也可以用于管理实现了Yarn的其它计算平台的资源管理和分配; 如果在生产系统中有多套计算框架 ,例如Spark、MapReduce、Mahout并存,建议使用Yarn或者Mesos进行资源统一的管理和调度;如果只使用Spark的话,建议使用Standalone就足够了,Yarn比较消耗资源; Q3 :Spark 的HA怎么处理的? 对于Master的HA,在Standalone模式下