hdfs命令

linux 安装 hive

半世苍凉 提交于 2019-12-01 23:07:22
Linux环境下hive的安装 2018-09-06 17:06:13 cs_mycsdn 阅读数 2933 更多 分类专栏: 大数据 编程软件配置 Linux hive 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/cs_mycsdn/article/details/82460238 一 Hive简介 在Hadoop生态圈中属于数据仓库的角色。Hive能够管理Hadoop中的数据,同时可以查询Hadoop中的数据。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制; Hive定义了简单的类SQL查询语言,称为HQL ,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作; 本质上讲,Hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job然后在Hadoop执行。Hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列

大数据基础组件

左心房为你撑大大i 提交于 2019-12-01 23:04:24
1、 HDFS HDFS是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 基本操作 【显示路径下文件】 hadoop fs -ls 或 hdfs dfs - ls <path> 【递归显示路径下文件】 hdfs dfs -lsr <path> 【上传文件】 hdfs dfs - put <localsrc> <dest> 【复制文件到本地】 hdfs dfs - get <src> <localdest> 【删除文件】 fs dfs - rm <file> hdfs dfs - rmr <dir> 【查看文件】 hdfs dfs - cat <file> 【新建目录】 hdfs dfs -mkdir <dir> 【用户权限修改】 hdfs dfs -chown <owner> :< group > < file / dir > 如: hdfs dfs - chown hdfs : hadoop / test 【文件权限配置】 hdfs dfs - chmod - R <ugo> +< rwx > < file / dir > # 为test目录所有者添加写权限 hdfs dfs -chmod

HDFS 笔记

我们两清 提交于 2019-12-01 21:40:55
HDFS Hadoop fs命令、   hadoop fs <> 三节点集群搭建。 本地文件系统与hdfs相隔离。 hdfs dfs <> start-all.sh在哪里? cd $HADOOP /opt/bigdata/hadop-2.7.3/ etc/hadoop slaves文件内容 看一看。 ssh node-02 -> datanode ??? jsp查看进程 hdfs原理:(面试) fault recovery 每个快都会有副本。128M最大切分。 一个datanode对应一个机器? hdfs-site.xml配置 configuration 文档:https://hadoop.apache.org/docs/r2.7.3 blk保存在机架的灵活性,如何配置。 机架感知。 副本零时性增多,提高吞吐量。 hadoop fs -settrep -R 4 /path hdfa fsck /salary.txt -files -bllocks -locations 通过网页也可以查看:node-01:50070 4 HDFS 主从架构 读取方式 B1->dn1, dn2, dn3 B2->dn4,dn2, dn1 元数据->namenode 内存 namenode取回然后去各个block,组成hadoop.dat HDFS 适合大文件 HDFS有上限

阿里云服务器centos7.3下搭建hadoop伪分布式环境

廉价感情. 提交于 2019-12-01 18:28:34
一、软硬件环境 CentOS 7.2 64位 OpenJDK-1.8.0 Hadoop-2.7 二、安装SSH客户端 安装ssh: yum install openssh-clients openssh-server 安装完成后,使用以下命令测试: ssh localhost 输入 root 账户的密码,如果可以正常登录,则说明SSH安装没有问题。 配置SSH免key登陆 hadoop是一个分布式系统,节点间通过ssh通信,为了避免在连接过程中人工输入密码,需要进行ssh免key登陆的配置,由于本例是在单机上模拟分布式过程,因此需要针对本机(localhost)进行免key登陆的配置。 依此输入如下命令进行配置: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys 完成后尝试用SSH连接本机,如果不需要输入密码就能登陆,说明配置成功: ssh localhost 结果显示: 三、配置Java环境 安装jdk 使用 yum 来安装1.8版本 OpenJDK: yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel

第9章-构建Hadoop集群-笔记

痴心易碎 提交于 2019-12-01 09:29:39
控制脚本 Hadoop内置一些脚本来运行指令,在集群内启动和终止守护进程。 这些脚本存放在bin目录中,通过masters和slaves文件指定集群内的所有机器。 1、masters文件,主要记录运行辅助namenode的所有机器 masters文件有点误导人。 它主要记录拟运行辅助namenode(secondarynamenode)的所有机器。 2、slaves文件,主要记录运行datanode和tasktracker的所有机器 slaves文件记录了运行datanode和tasktracker的所有机器。 masters和slaves文件存放在配置目录中。 用户也可以改变hadoop-env.sh的HADOOP_SLAVES项的值,将slaves文件放在其他地方(也可以改变文件名称)。 3、start-dfs.sh脚本运行时详细步骤 例如:start-dfs.sh脚本用于启动集群中所有的HDFS守护进程,但是该脚本运行时会在同一机器上运行namenode。 1)、在本地机器上启动一个namenode(脚本所运行的机器) 2)、在slaves文件中记录的各机器上启动一个datanode。 3)、在masters文件中记录的各机器上启动一个辅助namenode。 4、start-mapred.sh脚本运行时详细步骤 脚本start-mapred和start-dfs.sh类似

[转帖]Hive 快速入门(全面)

徘徊边缘 提交于 2019-12-01 06:56:11
Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家 阅读数 4343 更多 分类专栏: hadoop 大数据 转载: https://www.codercto.com/a/5110.html 前言 我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同。 Hive是对数据仓库进行管理和分析数据的工具。但是大家不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会 MYSQL 或者MSSQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务所需要的东西。 但是Hive和MYSQL毕竟不同,执行原理、优化方法,底层架构都完全不相同。 大数据离线分析使用Hive已经成为主流,基于工作中Hive使用的经验,我整理了这个入门级别的文章,希望能给想入门的同学提供一些帮助。 一、Hive简介 Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了 Apache 软件基金会。 官网定义: The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large

hadoop实用命令

霸气de小男生 提交于 2019-12-01 05:33:41
1、怎样 一次上传多个文件 到hdfs ? 错误示例,这样只会上传最后一个文件 hadoop dfs -put 123.txt 456.txt 正确做法如下,需指定上传位置即可 hadoop dfs -put 123.txt 456.txt /user/az-user/ 来源: https://www.cnblogs.com/mylittlecabin/p/11660344.html

Hadoop2.2.0安装配置手册

帅比萌擦擦* 提交于 2019-12-01 03:02:56
第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译(10楼评论中提供了一个解决方法链接)。 下载地址: http://apache.claz.org/hadoop/common/hadoop-2.2.0/ 如下图所示,下载红色标记部分即可。如果要自行编译则下载src.tar.gz. 第二部分 集群环境搭建 1、这里我们搭建一个由三台机器组成的集群: 192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit 192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit 192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit 1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色(namenode, secondary namenode, datanode , resourcemanager, nodemanager) vi /etc/hosts 编辑/etc/sysconfig/network文件

CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN

∥☆過路亽.° 提交于 2019-12-01 02:59:51
CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN 2018-04-12 21:58:50 小小Tiny 阅读数 1289 更多 分类专栏: 大数据 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/gx304419380/article/details/79917321 0x0 背景 由于CDH默认的权限管理机制过于简单,不能够保证HADOOP集群的安全性,因此,引入了Kerberos作为安全管理服务。 0x1 安装kerberos服务 CDH提供了关于整合kerberos服务的向导,在整合kerberos之前,必须要有kerberos服务。下面,介绍一下如何安装kerberos服务。 1. 安装kerberos server和kdc(Key Distribution Center) $ sudo apt-get install krb5-kdc krb5-admin-server $ sudo dpkg-reconfigure krb5-kdc 安装过程中会问你设置默认realm,一般设置域名大写,例如: EXAMPL.COM 2. 安装完成后,会生成一些配置文件,常用的如下: 默认的KDC配置文件路径: /etc/krb5kdc

hadoop2.x启动停止的命令

a 夏天 提交于 2019-12-01 00:11:15
一、启动,按启动顺序执行命令。如果需要关闭集群,则按反顺序执行即可。 1.如果使用hdfs HA,需先启动zookeeper集群,具体请查看zookeeper的相关命令。 2. 如果使用 hdfs HA ,需 格式化zookeeper集群, 整个hdfs集群只需第一次启动时执行一次, 整个hdfs集群只需第一次启动时执行一次, 整个hdfs集群只需第一次启动时执行一次, 命令如下: bin/hdfs zkfc -formatZK 说明: 在ZK集群中建立一个目录,用于保存集群中NameNode的状态数据,不通的集群需要在集群中的随意一台namenode中执行此操作,操作完之后在zookeeper中会建立目录/hadoop-ha/cluster1,一般首次执行即可。 3.如果使用 journal集群做HA,需启动 journal集群,在journal集群每个节点执行如下命令: sbin/hadoop-daemon.sh start journalnode ‍ ‍ 4.格式化HDFS ‍ ‍ 整个hdfs集群只需第一次启动时执行一次, 整个hdfs集群只需第一次启动时执行一次, 整个hdfs集群只需第一次启动时执行一次, hdfs HA,在任一namenode节点上执行如下命令: hdfs namenode -format -clusterId cluster1 说明: