HDFS | 易学教程

大数据之Hadoop

阅读更多关于大数据之Hadoop

经过前期的软件和应用程序的安装，我学习了一下Linux的基本命令，然后开始安装 hadoop，我看的是尚硅谷的大数据视频，我有源码，软件的压缩包，笔记等等很多的资料，也是在B站群正常购买的，有想要的，请私聊我呀！！然后就是开始真正的大数据学习，学习大数据，最显要了解Hadoop以及Hadoop的生态圈，当然这里的东西特别多，没有经年累月的学习是学习不完的，经过和队友的商议，和tzp学长的建议，他告诉我先学习一下Hadoop的hdfs，分布式文件管理系统，和mapredece，计算框架就算是大数据入门了，所以我看了网上一些配置的教程感觉这个配置超级麻烦，所以，我还是照着视频讲解的一步一步的配置吧，这里要为尚硅谷的那个2018讲大数据的老师点赞，我也建议大家看尚硅谷大数据2018年的课程 2019最新版的我也看了，我认为里面的视频讲解的不太细致，因为那个老师直接拿已经安装好的伪分布式的hdfs开始讲，初学者一定会很蒙，所以建议大家去b站上搜索2018 的。按照上面的视频一步一步的操作，再加上我自己手里的文档，几乎可以做到0失误。下面我要说一下我对HDFS分布式文件系统的理解。分布式文件管理系统会提供多个用户的服务器，而且一般是有备份和容错功能的，它是由 java语言实现的分布式，课横向扩展的文件系统。Namenode是中心服务器，它一般管理

hdfs常用命令

阅读更多关于 hdfs常用命令

第一部分：hdfs文件系统命令第一类：文件路径增删改查系列： hdfs dfs -mkdir dir 创建文件夹 hdfs dfs -rmr dir 删除文件夹dir hdfs dfs -ls 查看目录文件信息 hdfs dfs -lsr 递归查看文件目录信息 hdfs dfs -stat path 返回指定路径的信息第二类：空间大小查看系列命令： hdfs dfs -du -h dir 按照适合阅读的形式人性化显示文件大小 hdfs dfs -dus uri 递归显示目标文件的大小 hdfs dfs -du path/file显示目标文件file的大小第三类:权限管理类： hdfs dfs -chgrp group path 改变文件所属组 hdfs dfs -chgrp -R /dir 递归更改dir目录的所属组 hdfs dfs -chmod [-R] 权限 -path 改变文件的权限 hdfs dfs -chown owner[-group] /dir 改变文件的所有者 hdfs dfs -chown -R owner[-group] /dir 递归更改dir目录的所属用户第四类：文件操作（上传下载复制）系列： hdfs dfs -touchz a.txt 创建长度为0的空文件a.txt hdfs dfs -rm file 删除文件file hdfs dfs

Hive的基本概念和常用命令

阅读更多关于 Hive的基本概念和常用命令

一、概念： 1、结构化和非结构化数据结构化数据：固有的键值对非结构数据：没有固定的键值对，没有明确的映射关系所以就可以理解下面这句话：hive是由facebook开源用于解决海量结构化日志的数据统计项目。 2、Hive是基于Hadoop文件系统上的数据仓库架构，它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换和加载）、数据存储管理和大型数据集的查询和分析能力。 RDBMS（关系型数据库） OLTP（联机事务处理过程）：一组事务同时去执行，低延迟，查询为主。 ACID（原子性、一致性、隔离性、持久性） OLAP（联机分析处理过程）：以数据仓库为基础，高延迟，分析为主。 3、Hive定义了类SQL语言-Hive QL（HQL）,允许用户进行和SQL相似的操作，它可以将结构化的数据文件映射为一张数据表，并提供简单的SQL查询功能，同时允许开发人员方便的使用MR操作，可以将SQL语言转换为MR任务运行。二、官网：三、ETL E：Extract 数据抽取 T：Transform 数据转换 L：Load数据装载 ETL是将业务系统的数据经过抽取、清洗转换之后，装载到数据仓库的过程。目的是将分散、零乱、标准不统一的数据整合到一起。例如项目日志信息、数据爬虫信息等。就可以提供决策分析依据了。数据抽取：把不同的数据源数据抓取过来，存到某个地方。数据清洗

hadoop-hdfs的shell常用操作命令

阅读更多关于 hadoop-hdfs的shell常用操作命令

1.hdfs dfs、hadoop fs、hadoop dfs三个命令的区别在介绍命令之前，首先要知道hdfs dfs、hadoop fs、hadoop dfs三个命令的区别。 hadoop fs：通用的文件系统命令，针对任何系统，比如本地文件、HDFS文件、HFTP文件、S3文件系统等。 hadoop dfs：特定针对HDFS的文件系统的相关操作，但是已经不推荐使用。 hdfs dfs：与hadoop dfs类似，同样是针对HDFS文件系统的操作，官方推荐使用。 2.hdfs常用命令 2.1文件路径增删改查系列 hdfs dfs -mkdir dir 创建文件夹 hdfs dfs -mkdir -p dir 递归创建文件夹 hdfs dfs -rmr dir 删除文件夹dir hdfs dfs -ls 查看目录文件信息 hdfs dfs -lsr 递归查看文件目录信息 hdfs dfs -stat path 返回指定路径的信息 2.2空间大小查看系列命令 hdfs dfs -du -h dir 按照适合阅读的形式人性化显示文件大小 hdfs dfs -du path/file显示目标文件file的大小 hdfs dfs -dus uri 递归显示目标文件的大小 2.3权限管理类 hdfs dfs -chgrp group path 改变文件所属组 hdfs dfs -chgrp

Linux安装Hadoop超详细教程

阅读更多关于 Linux安装Hadoop超详细教程

一、引言首先说明一下，本文的安装教程仅是针对个人的操作经验所写的。可能有些同学安装的时候觉得跟他的不一样，那可能是由于版本不一样所导致的。另外本次分享是基于已经安装了java及配置好了环境。本机的配置环境如下： Hadoop(3.1.1) Ubuntu Linux(64位系统) 二、安装ssh服务 ubuntu中默认是没有安装ssh server的，只有 ssh client,可以使用如下命令安装： sudo apt-get install ssh openssh-server 然后设置ssh免密码登陆，执行如下命令： ssh - keygen - t dsa - P '' - f ~ / . ssh / id_dsa cat ~ / . ssh / id_dsa . pub >> ~ / . ssh / authorized_keys #验证是否成功输入 ssh localhost #如果可以不需要密码登录则表示成功，否则就是失败，需要去查找原因，如果成功后输入exit退出成功之后截图如下：三、安装Hadoop 1.下载Hadoop安装包可以到如下网址下载：http://apache.stu.edu.tw/hadoop/common/hadoop-3.1.1/ 2.解压使用如下命令解压缩Hadoop安装包： tar -zxvf hadoop-3.1.1.tar

Hadoop HDFS操作命令

阅读更多关于 Hadoop HDFS操作命令

Hadoop HDFS操作命令查看Hadoop HDFS支持的所有命令 hadoop fs 列出目录及文件信息 hadoop fs - ls 循环列出目录、子目录及文件信息 hadoop fs - lsr 将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下 hadoop fs - put test . txt / user / sunlightcs 将HDFS中的test.txt复制到本地文件系统中，与-put命令相反 hadoop fs - get / user / sunlightcs / test . txt 查看HDFS文件系统里test.txt的内容 hadoop fs - cat / user / sunlightcs / test . txt 查看最后1KB的内容 hadoop fs - tail / user / sunlightcs / test . txt 从HDFS文件系统删除test.txt文件，rm命令也可以删除空目录 hadoop fs - rm / user / sunlightcs / test . txt 删除/user/sunlightcs目录以及所有子目录 hadoop fs - rmr / user / sunlightcs 从本地文件系统复制文件到HDFS文件系统，等同于put命令 hadoop

hive 的理解

阅读更多关于 hive 的理解

什么是Hive 转自： https://blog.csdn.net/qingqing7/article/details/79102691 1、Hive简介 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用戶查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。首先,我来说说什么是hive(What is Hive?),请看下图: Hive构建在Hadoop的HDFS和MapReduce之上,用于管理和查询结构化/非结构化数据的数据仓库。使用HQL作为查询接口使用HDFS作为底层存储使用MapReduce作为执行层 Hive的应用，如下图所示这里集群搭建Hive时用到了HA，最后用HAProxy来做代理。 1.1、结构描述 Hive 的结构可以分为以下几部分: 用戶接口:包括 CLI, Client, WU 元数据存储。通常是存储在关系数据库如 mysql, derby 中解释器、编译器、优化器、执行器 Hadoop:用

Hadoop 学习第二章 HDFS

阅读更多关于 Hadoop 学习第二章 HDFS

Hadoop 学习第二章 HDFS 第二章 HDFS HDFS概述 HDFS定义 HDFS优缺点 HDFS架构 HDFS文件块大小（面试重点）常用命令实操 HDFS客户端操作（开发重点） HDFS客户端环境准备 HDFS文件下载 HDFS文件夹删除 HDFS文件名更改 HDFS文件详情查看 HDFS文件和文件夹判断 HDFS的I/O流操作 HDFS文件下载定位文件读取 HDFS的数据流（面试重点） HDFS写数据流程剖析文件写入网络拓扑-节点距离计算 HDFS读数据流程（面试重点） NameNode和SecondaryNameNode（面试开发重点） NN和2NN工作机制 Fsimage和Edits解析 CheckPoint时间设置集群安全模式 NameNode多目录配置 DataNode（面试开发重点） DataNode工作机制数据完整性掉线时限参数设置服役新数据节点退役旧数据节点添加白名单黑名单退役 Datanode多目录配置 HDFS 2.X新特性集群间数据拷贝小文件存档回收站第二章 HDFS HDFS概述 HDFS定义 HDFS优缺点对于小文件不适合存储无论是几个G 还是几兆在namenode都要占据15个字节的容量。 HDFS架构默认切成128兆 HDFS文件块大小（面试重点）块的大小跟磁盘的传输速率有关，机械硬盘

HADOOP实践101：在Hadoop集群中添加机器和删除机器

阅读更多关于 HADOOP实践101：在Hadoop集群中添加机器和删除机器

无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。本次操作之前，Hadoop的集群情况如下： HDFS的机器情况如下： MR的机器情况如下：添加机器在集群的Master机器中，修改$HADOOP_HOME/conf/slaves文件，在其中添加需要加入集群的新机器（hp3）的主机名： hp3 hp2 dell1 dell2 dell3 dell4 然后在Master机器中执行如下命令： $HADOOP_HOME/bin/start-all.sh 这样操作完成之后，新的机器就添加到集群中来了。 HDFS集群增加了一台新的机器： MR集群中也新增了一台机器：删除机器不安全的方式由于Hadoop集群自身具备良好的容错性，可以直接关闭相应的机器，从而达到将该机器撤除的目的。但是如果一次性操作3台以上的机器，就有可能造成部分数据丢失，所以不推荐使用这种方式进行操作。安全的方式在集群的Master机器中，新建一个文件：$HADOOP_HOME/conf/nn-excluded-list，在这个文件中指定需要删除的机器主机名（hp3）： hp3 然后，修改Master机器的配置文件：$HADOOP_HOME/conf/hdfs-site.xml，添加如下内容： <property> <name>dfs.hosts.exclude</name> <value

Hive 简介

阅读更多关于 Hive 简介

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。 Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。Hive 并不适合那些需要低延迟的应用。 Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive

订阅 HDFS