Hadoop基础
Hadoop基础 简介 Hadoop是 可靠的 、 可扩展 的开源 分布式计算 和 分布式存储 框架 由Hadoop Common,HDFS,MapReduce,Yarn 组成 HDFS :分布式文件系统 MapReduce :分布式计算框架 Yarn :资源调度系统 Hadoop的优势 高可靠 数据存储: 数据块多副本 数据计算: 某个节点崩溃, 会自动重新调度作业计算 高扩展性 存储/计算资源不够时,可以横向的线性扩展机器 一个集群中可以包含数以千计的节点 集群可以使用廉价机器,成本低 Hadoop生态系统成熟 Hadoop能做什么 搭建大型数据仓库 PB级数据的存储 处理 分析 统计等业务 搜索引擎 日志分析 数据挖掘 BI 1、HDFS(数据分块,冗余存储) HDFS的启动 $HADOOP_HOME/sbin/start-dfs.sh 退出安全模式(safemode) hdfs dfsadmin -safemode leave 通过 IP:50070 查看hdfs的运行状态 HDFS的shell命令 和linux指令基本一致 只是需要加上 hadoop fs -命令 常用的例如:ls text mv put rm 例 : hadoop fs - mkdir - p / hadoop001 / test # 在HDFS中创建文件夹 文件基本操作(上传,删除,下载)