HDFS | 易学教程

python hdfs

阅读更多关于 python hdfs

https://blog.csdn.net/fuck487/article/details/80859581 hdfs-site.xml < property > < name > dfs.http.address </ name > < value > 0.0.0.0:50070 </ value > </ property > < property > < name > fs.defaultFS </ name > < value > hdfs://0.0.0.0:9000 </ value > </ property > 来源： CSDN 作者：数学工具构造器链接： https://blog.csdn.net/TQCAI666/article/details/104183785

CDH版本组件端口汇总

阅读更多关于 CDH版本组件端口汇总

CDH版本组件端口汇总组件端口号端口用途 HDFS 50020 DataNode 协议端口 HDFS 50010 DataNode 收发器端口 HDFS 50075 DataNode HTTP Web UI 端口 HDFS 50475 安全 DataNode Web UI 端口 HDFS 14000 REST端口 HDFS 14001 管理端口 HDFS 8485 JournalNode RPC 端口 HDFS 8480 JournalNode HTTP 端口 HDFS 8481 安全JournalNode Web UI端口(TLS/SSL) HDFS 2049 NFS Gateway 服务器端口 HDFS 4242 NFS Gateway MountD端口 HDFS 8020 NameNode 端口 HDFS 8022 NameNode服务RPC端口 HDFS 50070 NameNode Web UI端口 HDFS 50470 安全NameNode Web UI端口(TLS/SSL) HDFS 50090 SecondaryNameNode Web UI端口 HDFS 50495 安全 SecondaryNameNode Web UI端口(TLS/SSL) HDFS 111 端口映射(或Rpcbind)端口 yarn 10020 MapReduce JobHistory

10分钟大数据Hadoop基础入门

阅读更多关于 10分钟大数据Hadoop基础入门

前言目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储：分布式文件系统（分布式存储）二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线（1）Java基础和Linux基础（2）Hadoop的学习：体系结构、原理、编程第一阶段：HDFS、MapReduce、HBase（NoSQL数据库）第二阶段：数据分析引擎 -> Hive、Pig 数据采集引擎 -> Sqoop、Flume 第三阶段：HUE：Web管理工具 ZooKeeper：实现Hadoop的HA Oozie：工作流引擎（3）Spark的学习第一阶段：Scala编程语言第二阶段：Spark Core -> 基于内存、数据的计算第三阶段：Spark SQL -> 类似于mysql 的sql语句第四阶段：Spark Streaming ->进行流式计算：比如：自来水厂（4）Apache Storm 类似：Spark Streaming ->进行流式计算 NoSQL：Redis基于内存的数据库 HDFS 分布式文件系统解决以下问题： 1、硬盘不够大：多几块硬盘，理论上可以无限大 2、数据不够安全：冗余度，hdfs默认冗余为3

Only one datanode can run in a multinode Hadoop setup

阅读更多关于 Only one datanode can run in a multinode Hadoop setup

问题 I am trying to setup a multinode Hadoop cluster. Right now, I am only trying with two nodes. One is NameNode/DataNode (host A), and the other is the second DataNode (host B). The strange thing is that, I can have only one DataNode running, either from host A or host B. If I remove the host B from the conf/slaves file and only keep host A in the set up, the system will use host A as the DataNode. But if I put both host A and B in the conf/slaves file, only host B will show up as the only

HDFS-HA集群中客户端如何找到Active NameNode

阅读更多关于 HDFS-HA集群中客户端如何找到Active NameNode

Hadoop2.0中，HDFS实现了HA，具体实现及原理请网上搜索。其中HDFS的配置包含以下几个必须参数： <property> <name>dfs.nameservices</name> <value> cdh5 </value> <description>指定HDFS的命名服务，一般和fs.defaultFS中的authority一致。</description> </property> <property> <name>dfs.ha.namenodes. cdh5 </name> <value>nn1,nn2</value> <description>指定HDFS集群中的NameNode（ID）。</description> </property> <property> <name>dfs.namenode.rpc-address. cdh5.nn1 </name> <value>hadoop10:9000</value> <description>第一个NameNode ID对应的host和端口号</description> </property> <property> <name>dfs.namenode.rpc-address. cdh5.nn2 </name> <value>hadoop20:9000</value> <description>第二个NameNode

hdfs功能详解介绍(2）

阅读更多关于 hdfs功能详解介绍(2）

四、hdfs的安全模式安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，当整个系统达到安全标准时，HDFS自动离开安全模式。如果HDFS出于安全模式下，则文件block不能进行任何的副本复制操作，因此达到最小的副本数量要求是基于datanode启动时的状态来判定的，启动时不会再做任何复制（从而达到最小副本数量要求），hdfs集群刚启动的时候，默认30S钟的时间是出于安全期的，只有过了30S之后，集群脱离了安全期，然后才可以对集群进行操作 [hadoop@node01 hadoop]$ hdfs dfsadmin -safemode Usage: hdfs dfsadmin [-safemode enter | leave | get | wait] 五、hdfs 的架构以及 block 块和副本机制 HDFS分布式文件系统也是一个主从架构，主节点是我们的namenode，负责管理整个集群以及维护集群的元数据信息从节点datanode，主要负责文件数据存储 hdfs将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的统一大小和形式进行存储

What is Mapreduce?&&What is hadoop?

阅读更多关于 What is Mapreduce?&&What is hadoop?

架构扼要想读懂此文，读者必须先要明确以下几点，以作为阅读后续内容的基础知识储备： Mapreduce是一种模式。 Hadoop是一种框架。 Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。所以，你现在，知道了什么是mapreduce，什么是hadoop，以及这两者之间最简单的联系，而本文的主旨即是，一句话概括：在hadoop的框架上采取mapreduce的模式处理海量数据。下面，咱们可以依次深入学习和了解mapreduce和hadoop这两个东西了。 Mapreduce模式前面说了，mapreduce是一种模式，一种什么模式呢?一种云计算的核心计算模式，一种分布式运算技术，也是简化的分布式编程模式，它主要用于解决问题的程序开发模型，也是开发人员拆解问题的方法。 Ok，光说不上图，没用。如下图所示，mapreduce模式的主要思想是将自动分割要执行的问题（例如程序）拆解成map（映射）和reduce（化简）的方式，流程图如下图1所示：在数据被分割后通过Map 函数的程序将数据映射成不同的区块，分配给计算机机群处理达到分布式运算的效果，在通过Reduce 函数的程序将结果汇整，从而输出开发者需要的结果。 MapReduce 借鉴了函数式程序设计语言的设计思想，其软件实现是指定一个Map 函数，把键值对(key/value)映射成新的键值对(key

实验三

阅读更多关于实验三

HDFS 常用操作使用 hadoop 用户名登录进入 Linux 系统，启动 Hadoop，参照相关 Hadoop 书籍或网络资料，或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”，使用 Hadoop 提供的 Shell 命令完成如下操作：（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；使用 hadoop 用户名登录进入 Linux 系统，假设 Hadoop 系统被安装在“/usr/local/hadoop”目录。使用如下命令启动 Hadoop： $cd /usr/local/hadoop $./sbin/start-dfs.sh #启动 HDFS $./bin/hdfs dfs -mkdir -p /user/hadoop #在 HDFS 中创建用户目录/user/hadoop （2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt，并在该文件中随便输入一些内容，然后上传到 HDFS 的“/user/hadoop”目录下； $cd /home/hadoop $vim test.txt #在 test.txt 中随便输入一些内容，并保存退出 vim 编辑器 $cd /usr/local/hadoop $./bin/hdfs dfs -put

寒假八

阅读更多关于寒假八

今天完成了spark的第三个实验。第三个实验涉及到一些Hadoop的知识，大部分已经想不起来了，经过今天的练习又温习了一遍，同时也接触到了使用Spark对本地文件或者是hdfs文件的一些操作，比如获取文件的行数等。将hdfs的文件处理做了一下回顾查看文件是否存在： 1 import org.apache.hadoop.conf.Configuration; 2 import org.apache.hadoop.fs.FileSystem; 3 import org.apache.hadoop.fs.Path; 4 public class HDFSFileIfExist { 5 public static void main(String[] args){ 6 try{ 7 String fileName = "xinyue"; 8 Configuration conf = new Configuration(); 9 conf.set("fs.defaultFS", "hdfs://localhost:9000"); 10 conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem"); 11 FileSystem fs = FileSystem.get(conf); 12 if(fs

hive里面select count()始终为0，select 有数据

阅读更多关于 hive里面select count(*)始终为0，select * 有数据

如题，在使用hive的时候，使用聚合函数select count（*）的时候，不走MR程序，直接返回0，而select * 是有数据的：原因是我的数据是直接通过put命令上传到指定目录的，并没用load进行上传，使用hdfs查看文件：俩个文件的权限是不一样的，暂时没有好的办法解决，我的办法是删除原来的数据，老老实实使用load命令进行加载数据就可以了。来源： CSDN 作者： thetimelyrain 链接： https://blog.csdn.net/thetimelyrain/article/details/104167383

订阅 HDFS