HDFS | 易学教程

Distributed Tensorflow 1.0 Supervisor stuck if logdir is in HDFS

阅读更多关于 Distributed Tensorflow 1.0 Supervisor stuck if logdir is in HDFS

问题 I build the TF 1.0 binary on centOS 8 for CPU. My distributed training code for MNIST data works fine if the Supervisor’s logdir is in local disk. But if I change Supervisor’s logdir to HDFS, the code will stuck at Supervisor’s initialization: sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), logdir='hdfs://cdh-2:8020/tmp/example', global_step=global_step, init_op=init_op) I used gdb and found the C stack trace. It seems it has problems in _wrap_RecursivelyCreateDir() #0

windows10 搭建最新的 hadoop 3.1.3 和 hbase 2.2.2 测试环境

阅读更多关于 windows10 搭建最新的 hadoop 3.1.3 和 hbase 2.2.2 测试环境

一、环境准备 1、JDK 2、Hadoop安装包官网 : https://archive.apache.org/dist/hadoop/common/ https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.3/ https://www-eu.apache.org/dist/hadoop/common/hadoop-3.1.3/ 3、hadooponwindows-master 下载地址 : https://github.com/cdarlint/winutils https://github.com/steveloughran/winutils 选择 3.1.3 使用如果不想配置和下载直接用我的文件覆盖 https://download.csdn.net/download/liutietuo/12113221 4、hbase安装包官网 : http://archive.apache.org/dist/hbase/ http://archive.apache.org/dist/hbase/2.2.2/ 二版本对应关系 1 Hadoop与Hbase对应的版本 2 Hbase与Jdk对应的版本三开始安装 1 解压各个目录 2 设置环境变量我的电脑 --> 属性 --> 高级系统设置 -->

Does changing the value of dfs.blocksizeaffect existing data

阅读更多关于 Does changing the value of dfs.blocksizeaffect existing data

问题 My Hadoop version is 2.5.2. I am changing my dfs.blocksize in hdfs-site.xml file on the master node. I have the following question: 1) Will this change affect the existing data in HDFS 2) Do I need to propogate this change to all he nodes in Hadoop cluster or only on the NameNode is sufficient 回答1: you should be making changes in hdfs-site.xml of all slaves also... dfs.block size should be consistent accross all datanodes. 回答2: 1) Will this change affect the existing data in HDFS No, it will

Does changing the value of dfs.blocksizeaffect existing data

阅读更多关于 Does changing the value of dfs.blocksizeaffect existing data

Does changing the value of dfs.blocksizeaffect existing data

阅读更多关于 Does changing the value of dfs.blocksizeaffect existing data

HBase

阅读更多关于 HBase

一、概述 Hbase全称为Hadoop Database（基于HDFS的数据库），设计来源Google 的bigtable，Hbase 仿照 bigtable设计基于HDFS上的一款数据库。 1.1 CAP原则 CAP原则又称之为CAP原理，指的是在分布式系统当中，一致性、可用性、分区容错性，三者不可兼得 HBase 是保证CP 1.2 什么是基于列式存储？ HBase 是基于列式存储的NoSql 这个概念和RDBMS作对比，传统的数据库对数据的操作单位是一行（若干字段） select username ，pass from user where id = 1 ； update user set username = "gjf " where id = 1 ; 即使操纵的是某一行记录当中的字段，其实RDBMS是查询了整行的内容加载完后完成对数据的修改行存储问题列存储 1.3 HBase https://hbase.apache.org/ Hbase 是基于列式存储的分布式的、面向列、基于HDFS的数据库，在需要实时读写，需要访问超大规模数据时，可以使用HBASE。 1.3.1 特点：大：一个表可以有上亿行，可有上百万列面向列：可以支持稀疏存储无模式：表的结构灵活，可以任意增加和减少字段数据多版本：每个cell中的数据可以用多个版本，在默认情况下，版本号自动分配

Windows平台下载安装Hadoop

阅读更多关于 Windows平台下载安装Hadoop

Hadoop配置前需要先安装并配置JDK，具体操作可参考文章 win10系统安装jdk8 1、下载Hadoop压缩包(此处以hadoop-2.6.5为例) 可从官网直接下载： hadoop-2.6.5 官网下载速度稍慢，若网络较差，可从CSDN资源下载：快速下载 hadoop-2.6.5 (此资源已包含下面步骤2中的配置文件，若以此方式下载，可跳过步骤2) 2、下载Windows系统下Hadoop运行所需要的配置文件地址：https://github.com/sardetushar/hadooponwindows 3、解压并替换文件将两个压缩包分别解压，并将hadooponwindows-master文件夹下的bin和etc文件夹替换hadoop-2.6.5目录中对应的文件夹，将bin目录下的hadoop.dll文件复制到本机windows\system32目录下 4、配置hadoop-env.cmd 修改hadoop-2.6.5\etc\hadoop\hadoop-env.cmd中的JAVA_HOME，将JAVA_HOME的值修改为本机jdk安装时配置的目录，若路径中含有Program Files，则用PROGRA~1替换，例如： set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_151 5、确认是否配置成功以管理员身份运行cmd

Hadoop学习笔记和总结（七）

阅读更多关于 Hadoop学习笔记和总结（七）

目录第七章 HDFS的四个机制与两个核心功能 7.1 HDFS 机制 7.1.1 心跳机制 7.1.2 安全模式 7.1.3 机架策略 7.1.4 负载均衡 7.2 HDFS文件上传流程 7.3 HDFS文件下载流程第七章 HDFS的四个机制与两个核心功能 HDFS提供的是高容错性的分布式数据存储方案，其包括四个主要的机制：（1）心跳机制（2）安全模式（3）机架策略（4）负载均衡；并作为一个文件系统两大核心功能包括：（1）文件上传（2）文件下载（3）元数据的管理当Hadoop集群启动时，各个进程启动的顺序如下： NameNode --> DataNode --> SecondaryNameNode 7.1 HDFS 机制 HDFS机制中需要重点掌握心跳机制、安全模式和机架策略并理解负载均衡。 7.1.1 心跳机制集群节点必须做时间同步。 NameNode是集群的Boss，负责集群中任务的分工。如果要进行分工，则必须知道各个DataNode的存活状况。NameNode是如何知道各DataNode的存活状态的呢？利用心跳机制，即：DataNode定期向NameNode发送心跳报告所确定的。具体实现： DataNode会每隔3秒（默认）向NameNode发送一次心跳报告，目的是告诉NameNode自己的存活状况。可以通过修改 hdfs

Hadoop核心组件

阅读更多关于 Hadoop核心组件

Hadoop核心组件之分布式文件系统HDFS 概述源自于Google的GFS论文，论文发表于2003年10月 HDFS是GFS的克隆版 HDFS特点：扩展性&容错性&海量数据存储特性将文件切分成指定大小的数据块并以多副本的存储在多个机器上面 eg：假设有一个文件 test.log，它的大小是 200M ；此时需要将它切分为块（block），假设默认的 blocksize 是 128M ，那就需要切分为两个块= 128M(blk1) + 72M(blk2) 。在默认 3副本的情况下，多台服务器中存储形式如下： node1：blk1 node2：blk2 node3：blk1 blk2 node4： node5：blk1 blk2 这种存储方式的好处就在于，假设 node1 节点挂掉了，但是在 node3 和 node5 中还有该文件块 blk1 的副本，因此不会影响到文件的操作。数据切分、多副本、容错等操作对用户是透明的上面那个例子中的处理对于用户来说是不感知的，就像操作单机一样操作分布式文件系统。 Hadoop核心组件之分布式计算框架MapReduce 概述源自于Google的MapReduce论文，论文发表于2004年12月 MapReduce是Google MapReduce的克隆版 MapReduce特点：扩展性&容错性&海量数据离线处理

hadoop 开发&调试

阅读更多关于 hadoop 开发&调试

写好的hadoop任务打成jar后，可以在服务器上用命令hadoop jar 提交。但开发阶段总不能一直用这种方式来调试，最好是在本机的ide 上可以直接debug。如果在wiindow上配置一套开发调试环境，说实话真是觉得很不爽。为了以后方便，整理了一下windows 下hadoop开发环境的配置和调试过程。首先本地下载一个和服务器相同版本的hadoop安装包。然后配置一个HADOOPHOME环境变量还要去网上下载window的工具包，需要有下面两个文件。下载的时候要注意，如果你是安装的32位Jdk 那么下32位的工具包。把下后的两个文件拷贝到HADOOPHOME bin目录下。到这里配置还没有完，除了上面几个配置外，不同的场景还需要不同的配置。（我也是很无语）。为了便于区分，接下来，我将列出本地Hadoop开发调试的四种场景。 1，本机访问Hdfs数据如果只是访问远程hdfs目录和文件，需要有 %HADOOP_HOME% ，还有 %HADOOP_HOME%\bin \winutils.exe就可以了。另外运行的时候会有访问权限的问题。主要是纠结hadoop 服务器的用户名和你本地机器用户名不一样。解决办法有两种方法1：hdfs-site.xml 加上如下配置，重启。 <property> <name>dfs.permissions</name>

订阅 HDFS