大数据技术之_05_Hadoop学习_01_MapReduce_MapReduce概述+Hadoop序列化
第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 1.4 MapReduce进程 1.5 官方WordCount源码 1.6 常用数据序列化类型 1.7 MapReduce编程规范 1.8 WordCount案例实操 第2章 Hadoop序列化 2.1 序列化概述 2.2 自定义bean对象实现序列化接口(Writable) 2.3 序列化案例实操 第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想,如下图所示。 详解如下: 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。 总结 :分析WordCount数据流走向,深入理解MapReduce核心思想。 1.4 MapReduce进程