1.2Hadooop(分布式计算平台)快速入门篇
Hadooop( 分布式计算平台 )快速入门 任务目的 重点掌握Hadoop的核心组件 了解Hadoop的发展历史及其生态体系 熟记Hadoop的主要特性 任务清单 任务1:Hadoop简介 任务2:Hadoop产生背景 任务3:Hadoop特性 详细任务步骤 任务1:Hadoop简介 Hadoop 是 Apache 软件基金会旗下的一个 开源的分布式计算平台 。 Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理; 处理什么问题 ? 海量数据的存储和海量数据的分析计算问题 。也就是 Hadoop 的两大核心: HDFS 和 MapReduce 。 Hadoop 的核心组件有: Common (基础组件):(工具包, RPC 框架) JNDI 和 RPC HDFS (Hadoop Distributed File System 分布式文件系统) :HDFS是以分布式进行存储的文件系统,主要负责集群数据的存储与读取。 HDFS 的设计特点*: 1、大数据文件,非常适合上 T 级别的大文件或者一堆大数据文件的存储。 2、文件分块存储, HDFS 会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多。 3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同