Spack学习笔记
一。 spark 是一个快速且通用的集群计算平台 基于内存的运算 通用性;降低维护成本 Spack的设计容纳了其它分布式系统拥有的功能 批处理,迭代式计算,交互查询和流处理等 spark是高度开放的;Python Java scala haddoop 二。 spark core: 包含spark的基本功能,任务调度,内存管理,容错机制 内部定义了RDDs,弹性分布式数据集 spark sql: 是spark处理结构化数据的库 spark streaming: 实时数据流处理组件,类似Storm Spaek Streaming提供了API来提供操作实时流数据。 应用场景,企业中用来从Kafka接收数据做实时统计。 milb: 包含通用机器学习功能的包,分类,聚类,回归 支持起集群上的横向扩展 机器学习 graphx: 处理图的库,并进行图的并行计算 cluster managers: 集群管理,Spark自带一个集群管理是单独调度器。 常见的集群管理包括Hadoop YARN,Apache Mesos 紧密集成的优点 1.spark底层优化了,基于spark的底层组件也会得到相应的优化。 2.紧密继承节省了各个组价组合使用时的部署,测试等时间 3.向spark增加新的组件时,其他组件,可立刻享用新组建的功能。 三。 spark与Hadoop的比较 Hadoop的应用场景:离线处理