hdfs命令 | 易学教程

hadoop(十一)HDFS简介和常用命令介绍

阅读更多关于 hadoop(十一)HDFS简介和常用命令介绍

HDFS背景随着数据量的增大，在一个操作系统中内存不了了，就需要分配到操作系统的的管理磁盘中，但是不方便管理者维护，迫切需要一种系统来管理多态机器上的文件，这就是分布式文件管理系统。 HDFS的概念 HDFS英文hadoop distributed file system ，是一个分布式文件系统，用于存储文件，通过目录树记录定位文件，其次他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器各有角色。 HDFS的设计适合一次吸入，多次读取的场景，且不支持文件的修改。适合做数据分析。 HDFS优缺点优点 1)高容错性 (1)数据自动保存多个副本。它通过增加副本的形式,提高容错性; (2)某一个副本丢失以后,它可以自动恢复。 2)适合大数据处理 (1)数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据; (2)文件规模:能够处理百万規模以上的文件数量,数量相当之大。 3)流式数据访问,它能保证数据的一致性 4)可构建在廉价机器上,通过多副本机制,提高可靠性。缺点 1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。 2)无法高效的对大量小文件进行存储。 (1)存储大量小文件的话,它会占用 Namenode大量的内存来存储文件、目录和块信息。这样是不可取的,因为 Namenode的内存总是有限的; (2)小文件存储的寻址时间会超过读取时同

hadoop(三)伪分布模式hdfs文件处理|5

阅读更多关于 hadoop(三)伪分布模式hdfs文件处理|5

伪分布模式hdfs 1.启动hsfs 2. 编辑vi hadoop-env.sh image.png image.png 3.配置nameNode和生产文件第地址 [shaozhiqi@hadoop101 hadoop]$ vi core-site.xml 指定HDFS中NameNode的地址 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop101:9000</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-3.1.2/data/tmp</value> </property> </configuration> 4.指定HDFS的副本数 [shaozhiqi@hadoop101 hadoop]$ vi hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> 只有一个节点的话相同数据只存放一份，配置三没用，照样存储一份启动hdfs 1. 格式化nameNode hdfs namenode

大数据核心技术

阅读更多关于大数据核心技术

原地址：http://bigdata.idcquan.com/dsjjs/159544.shtml 大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。一、数据采集与预处理对于各种来源的数据，包括移动互联网数据、社交网络的数据等，这些结构化和非结构化的海量数据是零散的，也就是所谓的数据孤岛，此时的这些数据并没有什么意义，数据采集就是将这些数据写入数据仓库中，把零散的数据整合在一起，对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候，可以写个定时的脚本将日志写入存储系统，但随着数据量的增长，这些方法无法提供数据安全保障，并且运维困难，需要更强壮的解决方案。 Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source

hadoop 集群调优实践总结

阅读更多关于 hadoop 集群调优实践总结

调优概述 # 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子：索引分组数据倒入导出数据移动和转换 CPU受限例子：聚类/分类复杂的文本挖掘特征提取用户画像自然语言处理我们需要从硬件规划和软件规划等多方面结合实现性能和效率的提升。硬件规划 # 评估集群规模 # 我们需要搭建多少节点的hadoop集群？回答这个问题考虑的因素比较多：预算？数据量？计算资源？需要多少计算资源可能不是特别好评估，推荐横向扩展，随业务规模和应用发展再考虑扩展。开始可以就按照数据量来评估数据规模，估计一下每天的数据增量？保存数据的周期是多少？有没有冷数据方案？假设每天增长的数据为600G、3备份存储，以一年规划为例,大概存储为600G 3 360天=633T, 再考虑增加%20的预留，考虑未来数据增长的趋势，考虑应用计算等空间需求。为节省空间可考虑压缩存储（大概可以节省70%空间）。同时考虑一定冗余量，如果集群一部分节点不可用也要保证业务正常使用（根据集群规模评估冗余比例）。然后结合节点硬件规划和预算，确定集群规模。假如我们需要650T存储，可以采用30台12 x 2TB的存储配置或者 60台6 x 2TB配置，但是节点数量翻翻

Hadoop系列之九：Hadoop集群伪分布式模式的实现详解

阅读更多关于 Hadoop系列之九：Hadoop集群伪分布式模式的实现详解

1、Hadoop依赖软件 Hadoop基于Java语言开发，因此其运行严重依赖于JDK(Java Development Kit)，并且Hadoop的许多功能依赖于Java 6及以后的版本才提供的特性。Hadoop可以良好地运行于经过测试的各JDK，如Sun JDK、OpenJDK、Oracle JRockit、IBM JDK各自实现的某些版本。但迄今为止，HotSpot JVM仍是性能最好且与Hadoop搭配运行最稳定的实现。http://wiki.apache.org/hadoop/HadoopJavaVersions页面给出了Hadoop目前几大著名企业实现的Hadoop集群中所使用的JDK版本，Hortonworks已经为 JDK 1.6.0_31 在RHEL5/CentOS5、RHEL6/CentOS6、SLES11运行Hadoop、HBase、Pig, Hive、HCatalog、Oozie、Sqoop等进行了认证。建议参考它们的测试结果进行选择。在选择安装版本，Sun JDK有几种不同格式的安装包，其使用及功能上并没有区别；但如果在安装Hadoop使用CDH的RPM格式的包的话，它们依赖于RPM格式的JDK，不过，ASF提供的RPM包并没有定义任何外在的依赖关系，因此，其可以使用基于任何方式安装配置的JDK，但这也意味着得手动解决依赖关系。无论如何

Hadoop系列之七：分布式文件系统HDFS(2)

阅读更多关于 Hadoop系列之七：分布式文件系统HDFS(2)

1、访问HDFS文件系统 HDFS是工作于用户空间的文件系统，它的树状文件系统是独立的，不能像传统上工作于内核空间的文件系统一样挂载至当前操作系统的目录树上对HDFS进行访问，传统上实现文件或目录管理的命令如ls、cat等此处也无法正常使用。对HDFS文件系统上的文件进行访问，需要通过HDFS的API或者由hadoop提供的命令行工具进行。 1.1 HDFS用户接口 (1) hadoop dfs命令行接口； (2) hadoop dfsadmin命令行接口； (3) web接口； (4) HDFS API；前三者方式在后文会有详细的使用说明。无论基于何种方式与HDFS文件系统交互，其读取或写入数据的过程是相同的，下面分别对写操作和读操作的过程进行详细描述。 1.2 向HDFS文件系统保存数据当需要存储文件并写数据时，客户端程序首先会向名称节点发起名称空间更新请求，名称节点检查用户的访问权限及文件是否已经存在，如果没有问题，名称空间会挑选一个合适的数据节点分配一个空闲数据块给客户端程序。客户端程序直接将要存储的数据发往对应的数据节点，在完成存储后，数据节点将根据名称节点的指示将数据块复制多个副本至其它节点。 (1) 向HDFS集群中保存数据之前，HDFS客户端需要事先知悉目标文件系统使用的“块大小”以及“复制因子(Replication Factor，即每一个块需要保存的副本数目

浅析hadoop 简历就写这个了

阅读更多关于浅析hadoop 简历就写这个了

为什么选择hadoop 下面列举hadoop主要的一些特点: 1)扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。 2)成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 3)高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 4)可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。 Hadoop核心 Hadoop的核心就是HDFS和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如 HBase、Hive等，这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop，就必须知道HDFS和MapReduce是什么。 HDFS HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。 HDFS的设计特点是： 1、大数据文件

《Hadoop基础教程》之初识Hadoop

阅读更多关于《Hadoop基础教程》之初识Hadoop

Hadoop一直是我想学习的技术，正巧最近项目组要做电子商城，我就开始研究Hadoop，虽然最后鉴定Hadoop不适用我们的项目，但是我会继续研究下去，技多不压身。《Hadoop基础教程》是我读的第一本Hadoop书籍，当然在线只能试读第一章，不过对Hadoop历史、核心技术和应用场景有了初步了解。 Hadoop历史雏形开始于2002年的Apache的Nutch，Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS也就是google File System，google公司为了存储海量搜索数据而设计的专用文件系统。 2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。 2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。 2005年Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。 2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop

centos7搭建hadoop3..系列

阅读更多关于 centos7搭建hadoop3.*.*系列

　　最近搭建这个hadoop踩过不少坑，先是配置JDK搞错路径（普通用户和root用户下的路径不同），再就是hadoop版本不同导致的启动错误，网上找到的是hadoop2.*.*的版本，但是我安装的hadoop3.*.*的版本，环境配置有部分不同。希望大家不要重蹈覆辙！下载hadoop安装包地址： http://hadoop.apache.org/ 安装配置 1.配置主机名: 　　将文件中原有的主机名删除，添加你自己的主机名，保存并退出。 vi /etc/hostname 2.配置hosts文件: 　　在文件最后增加机器的IP地址和刚才配好的主机名，保存并退出。 vi /etc/hosts 3.生成SSH密钥:执行以下命令，然后一直回车。来生成SSH密钥。生成的密钥文件会存放在/root/.ssh/目录下。前提是你用的root帐号登录并且生成的ssh密钥。 ssh-keygen 4.配置机器免密登录:执行以下命令、将刚才生成好的SSH密钥发送指定的机器上，来实现机器免密登录。 ssh- copy- id root@主机名 5.上传和解压下载好的Hadoop安装包，上传可以直接从xshell拖进目录 tar -zxvf hadoop-3.1.2.tar.gz(我这里写的是我的包名) 6.配置 hadoop-env.sh 文件：这个文件里写的是hadoop的环境变量

Hadoop HDFS命令——2

阅读更多关于 Hadoop HDFS命令——2

参考《Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社》一、创建与查看HDFS目录常用的hdfs命令： hadoop fs -mkdir 创建HDFS目录 hadoop fs -ls 列出HDFS目录 hadoop fs -copyFromLocal 复制本地文件到HDFS hadoop fs -put 复制本地文件到HDFS hadoop fs -cat 列出HDFS目录下的文件内容 hadoop fs -copyToLocal 将HDFS上的文件复制到本地 hadoop fs -get 将HDFS上的文件复制到本地（local） hadoop fs -cp 复制HDFS文件 hadoop fs -rm 杉树HDFS文件（1）创建user目录先打开hadoop集群，输入start-all.sh hadoop fs -mkdir /user 如果出现 mkdir: Cannot create directory /user. Name node is in safe mode. 需要输入 hadoop dfsadmin -safemode leave 离开安全模式，才可以创建目录（2）在user目录下创建hduser子目录 hadoop fs -mkdir /user/hduser （3

订阅 hdfs命令