HDFS

大数据之Hadoop

泪湿孤枕 提交于 2020-01-29 22:04:58
经过前期的软件和应用程序的安装,我学习了一下Linux的基本命令,然后开始安装 hadoop,我看的是尚硅谷的大数据视频,我有源码,软件的压缩包,笔记等等很多 的资料,也是在B站群正常购买的,有想要的,请私聊我呀!! 然后就是开始真正的大数据学习,学习大数据,最显要了解Hadoop以及Hadoop的 生态圈,当然这里的东西特别多,没有经年累月的学习是学习不完的,经过和队友的 商议,和tzp学长的建议,他告诉我先学习一下Hadoop的hdfs,分布式文件管理系 统, 和mapredece,计算框架就算是大数据入门了,所以我看了网上一些配置的教程 感觉 这个配置超级麻烦,所以,我还是照着视频讲解的一步一步的配置吧,这里要为 尚硅谷 的那个2018讲大数据的老师点赞,我也建议大家看尚硅谷大数据2018年的课程 2019最 新版的我也看了,我认为里面的视频讲解的不太细致,因为那个老师直接拿已经 安装好 的伪分布式的hdfs开始讲,初学者一定会很蒙,所以建议大家去b站上搜索2018 的。按 照上面的视频一步一步的操作,再加上我自己手里的文档,几乎可以做到0失误。 下面我要说一下我对HDFS分布式文件系统的理解。 分布式文件管理系统会提供多个用户的服务器,而且一般是有备份和容错功能的,它是由 java语言实现的分布式,课横向扩展的文件系统。Namenode是中心服务器,它一般管理

hdfs常用命令

≯℡__Kan透↙ 提交于 2020-01-29 04:18:07
第一部分:hdfs文件系统命令 第一类:文件路径增删改查系列: hdfs dfs -mkdir dir 创建文件夹 hdfs dfs -rmr dir 删除文件夹dir hdfs dfs -ls 查看目录文件信息 hdfs dfs -lsr 递归查看文件目录信息 hdfs dfs -stat path 返回指定路径的信息 第二类:空间大小查看系列命令: hdfs dfs -du -h dir 按照适合阅读的形式人性化显示文件大小 hdfs dfs -dus uri 递归显示目标文件的大小 hdfs dfs -du path/file显示目标文件file的大小 第三类:权限管理类: hdfs dfs -chgrp group path 改变文件所属组 hdfs dfs -chgrp -R /dir 递归更改dir目录的所属组 hdfs dfs -chmod [-R] 权限 -path 改变文件的权限 hdfs dfs -chown owner[-group] /dir 改变文件的所有者 hdfs dfs -chown -R owner[-group] /dir 递归更改dir目录的所属用户 第四类:文件操作(上传下载复制)系列: hdfs dfs -touchz a.txt 创建长度为0的空文件a.txt hdfs dfs -rm file 删除文件file hdfs dfs

Hive的基本概念和常用命令

拥有回忆 提交于 2020-01-29 01:46:28
一、概念: 1、结构化和非结构化数据 结构化数据:固有的键值对 非结构数据:没有固定的键值对,没有明确的映射关系 所以就可以理解下面这句话:hive是由facebook开源用于解决海量结构化日志的数据统计项目。 2、Hive是基于Hadoop文件系统上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)、数据存储管理和大型数据集的查询和分析能力。 RDBMS(关系型数据库) OLTP(联机事务处理过程):一组事务同时去执行,低延迟,查询为主。 ACID(原子性、一致性、隔离性、持久性) OLAP(联机分析处理过程):以数据仓库为基础,高延迟,分析为主。 3、Hive定义了类SQL语言-Hive QL(HQL),允许用户进行和SQL相似的操作,它可以将结构化的数据文件映射为一张数据表,并提供简单的SQL查询功能,同时允许开发人员方便的使用MR操作,可以将SQL语言转换为MR任务运行。 二、官网: 三、ETL E:Extract 数据抽取 T:Transform 数据转换 L:Load数据装载 ETL是将业务系统的数据经过抽取、清洗转换之后,装载到数据仓库的过程。目的是将分散、零乱、标准不统一的数据整合到一起。例如项目日志信息、数据爬虫信息等。就可以提供决策分析依据了。 数据抽取:把不同的数据源数据抓取过来,存到某个地方。 数据清洗

hadoop-hdfs的shell常用操作命令

情到浓时终转凉″ 提交于 2020-01-28 19:46:10
1.hdfs dfs、hadoop fs、hadoop dfs三个命令的区别 在介绍命令之前,首先要知道hdfs dfs、hadoop fs、hadoop dfs三个命令的区别。 hadoop fs:通用的文件系统命令,针对任何系统,比如本地文件、HDFS文件、HFTP文件、S3文件系统等。 hadoop dfs:特定针对HDFS的文件系统的相关操作,但是已经不推荐使用。 hdfs dfs:与hadoop dfs类似,同样是针对HDFS文件系统的操作,官方推荐使用。 2.hdfs常用命令 2.1文件路径增删改查系列 hdfs dfs -mkdir dir 创建文件夹 hdfs dfs -mkdir -p dir 递归创建文件夹 hdfs dfs -rmr dir 删除文件夹dir hdfs dfs -ls 查看目录文件信息 hdfs dfs -lsr 递归查看文件目录信息 hdfs dfs -stat path 返回指定路径的信息 2.2空间大小查看系列命令 hdfs dfs -du -h dir 按照适合阅读的形式人性化显示文件大小 hdfs dfs -du path/file显示目标文件file的大小 hdfs dfs -dus uri 递归显示目标文件的大小 2.3权限管理类 hdfs dfs -chgrp group path 改变文件所属组 hdfs dfs -chgrp

Linux安装Hadoop超详细教程

时间秒杀一切 提交于 2020-01-28 15:56:46
一、引言 首先说明一下,本文的安装教程仅是针对个人的操作经验所写的。可能有些同学安装的时候觉得跟他的不一样,那可能是由于版本不一样所导致的。另外本次分享是基于已经安装了java及配置好了环境。 本机的配置环境如下: Hadoop(3.1.1) Ubuntu Linux(64位系统) 二、安装ssh服务 ubuntu中默认是没有安装ssh server的,只有 ssh client,可以使用如下命令安装: sudo apt-get install ssh openssh-server 然后设置ssh免密码登陆,执行如下命令: ssh - keygen - t dsa - P '' - f ~ / . ssh / id_dsa cat ~ / . ssh / id_dsa . pub >> ~ / . ssh / authorized_keys #验证是否成功 输入 ssh localhost #如果可以不需要密码登录则表示成功,否则就是失败,需要去查找原因,如果成功后 输入exit退出 成功之后截图如下: 三、安装Hadoop 1.下载Hadoop安装包 可以到如下网址下载:http://apache.stu.edu.tw/hadoop/common/hadoop-3.1.1/ 2.解压 使用如下命令解压缩Hadoop安装包: tar -zxvf hadoop-3.1.1.tar

Hadoop HDFS操作命令

丶灬走出姿态 提交于 2020-01-28 08:39:35
Hadoop HDFS操作命令 查看Hadoop HDFS支持的所有命令 hadoop fs 列出目录及文件信息 hadoop fs - ls 循环列出目录、子目录及文件信息 hadoop fs - lsr 将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下 hadoop fs - put test . txt / user / sunlightcs 将HDFS中的test.txt复制到本地文件系统中,与-put命令相反 hadoop fs - get / user / sunlightcs / test . txt 查看HDFS文件系统里test.txt的内容 hadoop fs - cat / user / sunlightcs / test . txt 查看最后1KB的内容 hadoop fs - tail / user / sunlightcs / test . txt 从HDFS文件系统删除test.txt文件,rm命令也可以删除空目录 hadoop fs - rm / user / sunlightcs / test . txt 删除/user/sunlightcs目录以及所有子目录 hadoop fs - rmr / user / sunlightcs 从本地文件系统复制文件到HDFS文件系统,等同于put命令 hadoop

hive 的理解

这一生的挚爱 提交于 2020-01-28 01:20:42
什么是Hive 转自: https://blog.csdn.net/qingqing7/article/details/79102691 1、Hive简介 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用戶查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 首先,我来说说什么是hive(What is Hive?),请看下图: Hive构建在Hadoop的HDFS和MapReduce之上,用于管理和查询结构化/非结构化数据的数据仓库。 使用HQL作为查询接口 使用HDFS作为底层存储 使用MapReduce作为执行层 Hive的应用 ,如下图所示 这里集群搭建Hive时用到了HA,最后用HAProxy来做代理。 1.1、结构描述 Hive 的结构可以分为以下几部分: 用戶接口:包括 CLI, Client, WU 元数据存储。通常是存储在关系数据库如 mysql, derby 中 解释器、编译器、优化器、执行器 Hadoop:用

Hadoop 学习 第二章 HDFS

邮差的信 提交于 2020-01-27 21:25:47
Hadoop 学习 第二章 HDFS 第二章 HDFS HDFS概述 HDFS定义 HDFS优缺点 HDFS架构 HDFS文件块大小(面试重点) 常用命令实操 HDFS客户端操作(开发重点) HDFS客户端环境准备 HDFS文件下载 HDFS文件夹删除 HDFS文件名更改 HDFS文件详情查看 HDFS文件和文件夹判断 HDFS的I/O流操作 HDFS文件下载 定位文件读取 HDFS的数据流(面试重点) HDFS写数据流程 剖析文件写入 网络拓扑-节点距离计算 HDFS读数据流程(面试重点) NameNode和SecondaryNameNode(面试开发重点) NN和2NN工作机制 Fsimage和Edits解析 CheckPoint时间设置 集群安全模式 NameNode多目录配置 DataNode(面试开发重点) DataNode工作机制 数据完整性 掉线时限参数设置 服役新数据节点 退役旧数据节点 添加白名单 黑名单退役 Datanode多目录配置 HDFS 2.X新特性 集群间数据拷贝 小文件存档 回收站 第二章 HDFS HDFS概述 HDFS定义 HDFS优缺点 对于小文件 不适合存储 无论是几个G 还是几兆 在namenode都要占据15个字节的容量。 HDFS架构 默认切成128兆 HDFS文件块大小(面试重点) 块的大小跟磁盘的传输速率有关,机械硬盘

HADOOP实践101:在Hadoop集群中添加机器和删除机器

匆匆过客 提交于 2020-01-27 09:25:03
无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。 本次操作之前,Hadoop的集群情况如下: HDFS的机器情况如下: MR的机器情况如下: 添加机器 在集群的Master机器中,修改$HADOOP_HOME/conf/slaves文件,在其中添加需要加入集群的新机器(hp3)的主机名: hp3 hp2 dell1 dell2 dell3 dell4 然后在Master机器中执行如下命令: $HADOOP_HOME/bin/start-all.sh 这样操作完成之后,新的机器就添加到集群中来了。 HDFS集群增加了一台新的机器: MR集群中也新增了一台机器: 删除机器 不安全的方式 由于Hadoop集群自身具备良好的容错性,可以直接关闭相应的机器,从而达到将该机器撤除的目的。但是如果一次性操作3台以上的机器,就有可能造成部分数据丢失,所以不推荐使用这种方式进行操作。 安全的方式 在集群的Master机器中,新建一个文件:$HADOOP_HOME/conf/nn-excluded-list,在这个文件中指定需要删除的机器主机名(hp3): hp3 然后,修改Master机器的配置文件:$HADOOP_HOME/conf/hdfs-site.xml,添加如下内容: <property> <name>dfs.hosts.exclude</name> <value

Hive 简介

被刻印的时光 ゝ 提交于 2020-01-27 07:35:12
hive是基于Hadoop的一个 数据仓库 工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合 数据仓库 的统计分析。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。 Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。Hive 并不适合那些需要低延迟的应用。 Hive 是一种底层封装了Hadoop 的数据仓库处理工具,使用类SQL 的HiveQL 语言实现数据查询,所有Hive