hdfs命令 | 易学教程

linux 安装 hive

阅读更多关于 linux 安装 hive

Linux环境下hive的安装 2018-09-06 17:06:13 cs_mycsdn 阅读数 2933 更多分类专栏：大数据编程软件配置 Linux hive 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接： https://blog.csdn.net/cs_mycsdn/article/details/82460238 一 Hive简介在Hadoop生态圈中属于数据仓库的角色。Hive能够管理Hadoop中的数据，同时可以查询Hadoop中的数据。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制； Hive定义了简单的类SQL查询语言，称为HQL ，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作；本质上讲，Hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job然后在Hadoop执行。Hive有一套映射工具，可以把SQL转换为MapReduce中的job，可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列

大数据基础组件

阅读更多关于大数据基础组件

1、 HDFS HDFS是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS 的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。基本操作【显示路径下文件】 hadoop fs -ls 或 hdfs dfs - ls <path> 【递归显示路径下文件】 hdfs dfs -lsr <path> 【上传文件】 hdfs dfs - put <localsrc> <dest> 【复制文件到本地】 hdfs dfs - get <src> <localdest> 【删除文件】 fs dfs - rm <file> hdfs dfs - rmr <dir> 【查看文件】 hdfs dfs - cat <file> 【新建目录】 hdfs dfs -mkdir <dir> 【用户权限修改】 hdfs dfs -chown <owner> :< group > < file / dir > 如： hdfs dfs - chown hdfs : hadoop / test 【文件权限配置】 hdfs dfs - chmod - R <ugo> +< rwx > < file / dir > # 为test目录所有者添加写权限 hdfs dfs -chmod

HDFS 笔记

阅读更多关于 HDFS 笔记

HDFS Hadoop fs命令、　　hadoop fs <> 三节点集群搭建。本地文件系统与hdfs相隔离。 hdfs dfs <> start-all.sh在哪里？ cd $HADOOP /opt/bigdata/hadop-2.7.3/ etc/hadoop slaves文件内容看一看。 ssh node-02 -> datanode ？？？ jsp查看进程 hdfs原理：（面试） fault recovery 每个快都会有副本。128M最大切分。一个datanode对应一个机器？ hdfs-site.xml配置 configuration 文档：https://hadoop.apache.org/docs/r2.7.3 blk保存在机架的灵活性，如何配置。机架感知。副本零时性增多，提高吞吐量。 hadoop fs -settrep -R 4 /path hdfa fsck /salary.txt -files -bllocks -locations 通过网页也可以查看：node-01:50070 4 HDFS 主从架构读取方式 B1->dn1, dn2, dn3 B2->dn4,dn2, dn1 元数据->namenode 内存 namenode取回然后去各个block，组成hadoop.dat HDFS 适合大文件 HDFS有上限

阿里云服务器centos7.3下搭建hadoop伪分布式环境

阅读更多关于阿里云服务器centos7.3下搭建hadoop伪分布式环境

一、软硬件环境 CentOS 7.2 64位 OpenJDK-1.8.0 Hadoop-2.7 二、安装SSH客户端安装ssh: yum install openssh-clients openssh-server 安装完成后，使用以下命令测试： ssh localhost 输入 root 账户的密码，如果可以正常登录，则说明SSH安装没有问题。配置SSH免key登陆 hadoop是一个分布式系统,节点间通过ssh通信,为了避免在连接过程中人工输入密码,需要进行ssh免key登陆的配置,由于本例是在单机上模拟分布式过程,因此需要针对本机(localhost)进行免key登陆的配置。依此输入如下命令进行配置: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys 完成后尝试用SSH连接本机,如果不需要输入密码就能登陆,说明配置成功: ssh localhost 结果显示：三、配置Java环境安装jdk 使用 yum 来安装1.8版本 OpenJDK： yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel

第9章-构建Hadoop集群-笔记

阅读更多关于第9章-构建Hadoop集群-笔记

控制脚本 Hadoop内置一些脚本来运行指令，在集群内启动和终止守护进程。这些脚本存放在bin目录中，通过masters和slaves文件指定集群内的所有机器。 1、masters文件，主要记录运行辅助namenode的所有机器 masters文件有点误导人。它主要记录拟运行辅助namenode（secondarynamenode）的所有机器。 2、slaves文件，主要记录运行datanode和tasktracker的所有机器 slaves文件记录了运行datanode和tasktracker的所有机器。 masters和slaves文件存放在配置目录中。用户也可以改变hadoop-env.sh的HADOOP_SLAVES项的值，将slaves文件放在其他地方（也可以改变文件名称）。 3、start-dfs.sh脚本运行时详细步骤例如：start-dfs.sh脚本用于启动集群中所有的HDFS守护进程，但是该脚本运行时会在同一机器上运行namenode。 1）、在本地机器上启动一个namenode（脚本所运行的机器） 2）、在slaves文件中记录的各机器上启动一个datanode。 3）、在masters文件中记录的各机器上启动一个辅助namenode。 4、start-mapred.sh脚本运行时详细步骤脚本start-mapred和start-dfs.sh类似

[转帖]Hive 快速入门(全面)

阅读更多关于 [转帖]Hive 快速入门(全面)

Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家阅读数 4343 更多分类专栏： hadoop 大数据转载: https://www.codercto.com/a/5110.html 前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍，这篇文章是基于hive-1.0.0版本介绍的，这个版本的Hive是运行在MapReduce上的，新的版本可以运行在Tez上，会有一些不同。 Hive是对数据仓库进行管理和分析数据的工具。但是大家不要被“数据仓库”这个词所吓倒，数据仓库是很复杂的东西，但是如果你会 MYSQL 或者MSSQL，就会发现Hive是那么的简单，简单到甚至不用学就可以使用Hive做出业务所需要的东西。但是Hive和MYSQL毕竟不同，执行原理、优化方法，底层架构都完全不相同。大数据离线分析使用Hive已经成为主流，基于工作中Hive使用的经验，我整理了这个入门级别的文章，希望能给想入门的同学提供一些帮助。一、Hive简介 Facebook为了解决海量日志数据的分析而开发了Hive，后来开源给了 Apache 软件基金会。官网定义： The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large

hadoop实用命令

阅读更多关于 hadoop实用命令

1、怎样一次上传多个文件到hdfs ? 错误示例，这样只会上传最后一个文件 hadoop dfs -put 123.txt 456.txt 正确做法如下，需指定上传位置即可 hadoop dfs -put 123.txt 456.txt /user/az-user/ 来源： https://www.cnblogs.com/mylittlecabin/p/11660344.html

Hadoop2.2.0安装配置手册

阅读更多关于 Hadoop2.2.0安装配置手册

第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件，所以如果需要在64位系统上部署则需要单独下载src 源码自行编译（10楼评论中提供了一个解决方法链接）。下载地址: http://apache.claz.org/hadoop/common/hadoop-2.2.0/ 如下图所示，下载红色标记部分即可。如果要自行编译则下载src.tar.gz. 第二部分集群环境搭建 1、这里我们搭建一个由三台机器组成的集群： 192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit 192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit 192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit 1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色（namenode, secondary namenode, datanode , resourcemanager, nodemanager） vi /etc/hosts 编辑/etc/sysconfig/network文件

CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN

阅读更多关于 CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN

CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN 2018-04-12 21:58:50 小小Tiny 阅读数 1289 更多分类专栏：大数据版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接： https://blog.csdn.net/gx304419380/article/details/79917321 0x0 背景由于CDH默认的权限管理机制过于简单，不能够保证HADOOP集群的安全性，因此，引入了Kerberos作为安全管理服务。 0x1 安装kerberos服务 CDH提供了关于整合kerberos服务的向导，在整合kerberos之前，必须要有kerberos服务。下面，介绍一下如何安装kerberos服务。 1. 安装kerberos server和kdc（Key Distribution Center） $ sudo apt-get install krb5-kdc krb5-admin-server $ sudo dpkg-reconfigure krb5-kdc 安装过程中会问你设置默认realm，一般设置域名大写，例如： EXAMPL.COM 2. 安装完成后，会生成一些配置文件，常用的如下：默认的KDC配置文件路径： /etc/krb5kdc

hadoop2.x启动停止的命令

阅读更多关于 hadoop2.x启动停止的命令

一、启动，按启动顺序执行命令。如果需要关闭集群，则按反顺序执行即可。 1.如果使用hdfs HA，需先启动zookeeper集群，具体请查看zookeeper的相关命令。 2. 如果使用 hdfs HA ，需格式化zookeeper集群，整个hdfs集群只需第一次启动时执行一次，整个hdfs集群只需第一次启动时执行一次，整个hdfs集群只需第一次启动时执行一次，命令如下： bin/hdfs zkfc -formatZK 说明：在ZK集群中建立一个目录，用于保存集群中NameNode的状态数据，不通的集群需要在集群中的随意一台namenode中执行此操作，操作完之后在zookeeper中会建立目录/hadoop-ha/cluster1，一般首次执行即可。 3.如果使用 journal集群做HA，需启动 journal集群，在journal集群每个节点执行如下命令： sbin/hadoop-daemon.sh start journalnode ‍ ‍ 4.格式化HDFS ‍ ‍ 整个hdfs集群只需第一次启动时执行一次，整个hdfs集群只需第一次启动时执行一次，整个hdfs集群只需第一次启动时执行一次， hdfs HA，在任一namenode节点上执行如下命令： hdfs namenode -format -clusterId cluster1 说明：

订阅 hdfs命令