HDFS

Distributed Tensorflow 1.0 Supervisor stuck if logdir is in HDFS

谁说胖子不能爱 提交于 2020-01-25 21:41:05
问题 I build the TF 1.0 binary on centOS 8 for CPU. My distributed training code for MNIST data works fine if the Supervisor’s logdir is in local disk. But if I change Supervisor’s logdir to HDFS, the code will stuck at Supervisor’s initialization: sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), logdir='hdfs://cdh-2:8020/tmp/example', global_step=global_step, init_op=init_op) I used gdb and found the C stack trace. It seems it has problems in _wrap_RecursivelyCreateDir() #0

windows10 搭建最新的 hadoop 3.1.3 和 hbase 2.2.2 测试环境

邮差的信 提交于 2020-01-25 20:53:36
一、环境准备 1、JDK 2、Hadoop安装包 官网 : https://archive.apache.org/dist/hadoop/common/ https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.3/ https://www-eu.apache.org/dist/hadoop/common/hadoop-3.1.3/ 3、hadooponwindows-master 下载地址 : https://github.com/cdarlint/winutils https://github.com/steveloughran/winutils 选择 3.1.3 使用 如果不想配置和下载直接用我的文件覆盖 https://download.csdn.net/download/liutietuo/12113221 4、hbase安装包 官网 : http://archive.apache.org/dist/hbase/ http://archive.apache.org/dist/hbase/2.2.2/ 二 版本对应关系 1 Hadoop与Hbase对应的版本 2 Hbase与Jdk对应的版本 三 开始安装 1 解压各个目录 2 设置环境变量 我的电脑 --> 属性 --> 高级系统设置 -->

Does changing the value of dfs.blocksizeaffect existing data

随声附和 提交于 2020-01-25 20:37:11
问题 My Hadoop version is 2.5.2. I am changing my dfs.blocksize in hdfs-site.xml file on the master node. I have the following question: 1) Will this change affect the existing data in HDFS 2) Do I need to propogate this change to all he nodes in Hadoop cluster or only on the NameNode is sufficient 回答1: you should be making changes in hdfs-site.xml of all slaves also... dfs.block size should be consistent accross all datanodes. 回答2: 1) Will this change affect the existing data in HDFS No, it will

Does changing the value of dfs.blocksizeaffect existing data

大憨熊 提交于 2020-01-25 20:36:06
问题 My Hadoop version is 2.5.2. I am changing my dfs.blocksize in hdfs-site.xml file on the master node. I have the following question: 1) Will this change affect the existing data in HDFS 2) Do I need to propogate this change to all he nodes in Hadoop cluster or only on the NameNode is sufficient 回答1: you should be making changes in hdfs-site.xml of all slaves also... dfs.block size should be consistent accross all datanodes. 回答2: 1) Will this change affect the existing data in HDFS No, it will

Does changing the value of dfs.blocksizeaffect existing data

青春壹個敷衍的年華 提交于 2020-01-25 20:36:04
问题 My Hadoop version is 2.5.2. I am changing my dfs.blocksize in hdfs-site.xml file on the master node. I have the following question: 1) Will this change affect the existing data in HDFS 2) Do I need to propogate this change to all he nodes in Hadoop cluster or only on the NameNode is sufficient 回答1: you should be making changes in hdfs-site.xml of all slaves also... dfs.block size should be consistent accross all datanodes. 回答2: 1) Will this change affect the existing data in HDFS No, it will

HBase

99封情书 提交于 2020-01-25 20:01:56
一、概述 Hbase全称为Hadoop Database(基于HDFS的数据库),设计来源Google 的bigtable,Hbase 仿照 bigtable设计基于HDFS上的一款数据库。 1.1 CAP原则 CAP原则又称之为CAP原理,指的是在分布式系统当中,一致性、可用性、分区容错性,三者不可兼得 HBase 是保证CP 1.2 什么是基于列式存储? HBase 是基于列式存储的NoSql 这个概念和RDBMS作对比,传统的数据库对数据的操作单位是一行(若干字段) select username ,pass from user where id = 1 ; update user set username = "gjf " where id = 1 ; 即使操纵的是某一行记录当中的字段,其实RDBMS是查询了整行的内容加载完后完成对数据的修改 行存储问题 列存储 1.3 HBase https://hbase.apache.org/ Hbase 是基于列式存储的分布式的、面向列、基于HDFS的数据库,在需要实时读写,需要访问超大规模数据时,可以使用HBASE。 1.3.1 特点: 大 : 一个表可以有上亿行,可有上百万列 面向列:可以支持稀疏存储 无模式:表的结构灵活,可以任意增加和减少字段 数据多版本:每个cell中的数据可以用多个版本,在默认情况下,版本号自动分配

Windows平台下载安装Hadoop

爷,独闯天下 提交于 2020-01-25 11:07:30
Hadoop配置前需要先安装并配置JDK,具体操作可参考文章 win10系统安装jdk8 1、下载Hadoop压缩包(此处以hadoop-2.6.5为例) 可从官网直接下载: hadoop-2.6.5 官网下载速度稍慢,若网络较差,可从CSDN资源下载: 快速下载 hadoop-2.6.5 (此资源已包含下面步骤2中的配置文件,若以此方式下载,可跳过步骤2) 2、下载Windows系统下Hadoop运行所需要的配置文件 地址:https://github.com/sardetushar/hadooponwindows 3、解压并替换文件 将两个压缩包分别解压,并将hadooponwindows-master文件夹下的bin和etc文件夹替换hadoop-2.6.5目录中对应的文件夹,将bin目录下的hadoop.dll文件复制到本机windows\system32目录下 4、配置hadoop-env.cmd 修改hadoop-2.6.5\etc\hadoop\hadoop-env.cmd中的JAVA_HOME, 将JAVA_HOME的值修改为本机jdk安装时配置的目录,若路径中含有Program Files,则用PROGRA~1替换,例如: set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_151 5、确认是否配置成功 以管理员身份运行cmd

Hadoop学习笔记和总结(七)

走远了吗. 提交于 2020-01-25 09:41:11
目录 第七章 HDFS的四个机制与两个核心功能 7.1 HDFS 机制 7.1.1 心跳机制 7.1.2 安全模式 7.1.3 机架策略 7.1.4 负载均衡 7.2 HDFS文件上传流程 7.3 HDFS文件下载流程 第七章 HDFS的四个机制与两个核心功能 HDFS提供的是高容错性的分布式数据存储方案,其包括 四个主要的机制 :(1) 心跳机制 (2) 安全模式 (3) 机架策略 (4) 负载均衡 ;并作为一个文件系统 两大核心功能 包括:(1) 文件上传 (2) 文件下载 (3) 元数据的管理 当Hadoop集群启动时,各个进程启动的顺序如下: NameNode --> DataNode --> SecondaryNameNode 7.1 HDFS 机制 HDFS机制中需要重点掌握心跳机制、安全模式和机架策略并理解负载均衡。 7.1.1 心跳机制 集群节点必须做时间同步。 NameNode是集群的Boss,负责集群中任务的分工。如果要进行分工,则必须知道各个DataNode的存活状况。NameNode是如何知道各DataNode的存活状态的呢? 利用心跳机制,即:DataNode定期向NameNode发送心跳报告所确定的。 具体实现: DataNode会每隔3秒(默认)向NameNode发送一次心跳报告,目的是告诉NameNode自己的存活状况。 可以通过修改 hdfs

Hadoop核心组件

断了今生、忘了曾经 提交于 2020-01-25 07:56:50
Hadoop核心组件之分布式文件系统HDFS 概述 源自于Google的GFS论文,论文发表于2003年10月 HDFS是GFS的克隆版 HDFS特点:扩展性&容错性&海量数据存储 特性 将文件切分成指定大小的数据块并以多副本的存储在多个机器上面 eg:假设有一个文件 test.log,它的大小是 200M ;此时需要将它切分为块(block),假设默认的 blocksize 是 128M ,那就需要切分为两个块= 128M(blk1) + 72M(blk2) 。在默认 3副本 的情况下,多台服务器中存储形式如下: node1:blk1 node2:blk2 node3:blk1 blk2 node4: node5:blk1 blk2 这种存储方式的好处就在于,假设 node1 节点挂掉了,但是在 node3 和 node5 中还有该文件块 blk1 的副本,因此不会影响到文件的操作。 数据切分、多副本、容错等操作对用户是透明的 上面那个例子中的处理对于用户来说是不感知的,就像操作单机一样操作分布式文件系统。 Hadoop核心组件之分布式计算框架MapReduce 概述 源自于Google的MapReduce论文,论文发表于2004年12月 MapReduce是Google MapReduce的克隆版 MapReduce特点:扩展性&容错性&海量数据离线处理

hadoop 开发&调试

怎甘沉沦 提交于 2020-01-25 04:45:42
写好的hadoop任务打成jar后,可以在服务器上用命令hadoop jar 提交。但开发阶段总不能一直用这种方式来调试,最好是在本机的ide 上可以直接debug。 如果在wiindow上配置一套开发调试环境,说实话真是觉得很不爽。为了以后方便,整理了一下windows 下hadoop开发环境的配置和调试过程。 首先本地下载一个和服务器相同版本的hadoop安装包。 然后配置一个HADOOPHOME环境变量 还要去网上下载window的工具包,需要有下面两个文件。 下载的时候要注意,如果你是安装的32位Jdk 那么下32位的工具包。 把下后的两个文件拷贝到HADOOPHOME bin目录下。 到这里配置还没有完,除了上面几个配置外,不同的场景还需要不同的配置。(我也是很无语)。 为了便于区分,接下来,我将列出本地Hadoop开发调试的四种场景。 1,本机访问Hdfs数据 如果只是访问远程hdfs目录和文件,需要有 %HADOOP_HOME% ,还有 %HADOOP_HOME%\bin \winutils.exe就可以了。 另外运行的时候会有访问权限的问题。主要是纠结hadoop 服务器的用户名和你本地机器用户名不一样。 解决办法有两种 方法1:hdfs-site.xml 加上如下配置,重启。 <property> <name>dfs.permissions</name>