HDFS | 易学教程

干货！腾讯资深架构解密从分布式到微服务

阅读更多关于干货！腾讯资深架构解密从分布式到微服务

【推荐】2020年最新Java电子书集合.pdf(吐血整理) >>> 前言 “微服务”架构在这几年被广泛传播，变得非常火热，以至于关于微服务架构相关的开源框架和工具都变得越来越活跃，比如: Netlix OSS、Dubbo、Apache Thrift等。Spring Cloud也因为Spring社区在企业应用领域的广泛知名度和强大影响力，受到了广大架构师与开发者的高度关注。内容简介分布式架构与微服务平台是当今IT界的关键技术，也是资深软件工程师和系统架构师必须掌握的核心技术。本书以从传统分布式架构迁移到基于容器技术的微服务架构为主线，全面、透彻地介绍了与分布式架构及微服务相关的知识和技术。本书-开始并没有提及分布式的枯燥理论，而是讲述了一段精彩的IT发展史，其中重点讲述了大型机、UNIX 小机器的没落与X86平台的崛起，从而巧妙地引出CPU、内存、网络、存储的分布式演进过程，这恰恰是分布式软件系统赖以运行的“物质基础”。然后简明扼要地介绍了进行系统架构所必需的网络基础，并详细介绍了分布式系统中的经典理论、设计套路及RPC通信，对内存、SOA架构、分布式存储、分布式计算等进行了深度解析，最后详细介绍了全文检索与消息队列中间件，以及微服务架构所涉及的重点内容。本书是Leader-us多年架构经验的倾情分享，主要面向关注分布式架构及微服务，以及有志于成为实力派架构师的IT人士。

Hadoop架构之1.0

阅读更多关于 Hadoop架构之1.0

Hadoop架构之1.0 本文主要讲述Hadoop中HDFS的架构，详细的MapReduce将放到后面写一篇专门的博客文章目录 Hadoop架构之1.0 hadoop1.0架构 HDFS组件 HDFS存储过程写入操作读取过程 HDFS的不足 MapReduce架构 MapReduce组件 MapReduce数据处理过程 MapReduce不足 hadoop1.0架构 HDFS组件 NameNode 管理整个文件系统的目录树结构和元数据信息保管文件与Block块序列之间的对应关系，以及Block块与DataNode节点之间对应关系 Block副本及其存储位置等管理数据 DataNode状态监控两者通过段时间间隔的心跳来传递管理信息和数据信息，通过这种方式的信息传递，NameNode 可以获知每个 DataNode 保存的 Block 信息、DataNode 的健康状况、命令 DataNode 启动停止等（如果发现某个 DataNode 节点故障，NameNode 会将其负责的 block 在其他 DataNode 上进行备份）负责接受用户的操作请求元数据管理操作： **fsimage:**内存命名空间元数据在外存的镜像文件 **editlog:**各种元数据操作的write-ahead-log文件，在体现到内存数据变化前首先会将操作记入editlog中，以防数据丢失。

启动hdfs时，报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件

阅读更多关于启动hdfs时，报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件

启动hdfs时，报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件。经过查看日志，发现 Name node is in safe mode. 解决方法：sudo -uhdfs hdfs dfsadmin -safemode leave 来源： oschina 链接： https://my.oschina.net/comics/blog/3190447

大数据技术之HBase

阅读更多关于大数据技术之HBase

第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站：http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会，程序员默默地将HBase弄成了Hadoop的子项目 -- 2010年HBase成为Apache顶级项目 -- 现在很多公司二次开发出了很多发行版本，你也开始使用了。 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google

利用API来对HDFS操作（Java）

阅读更多关于利用API来对HDFS操作（Java）

package com . zhengkw . hdfs ; import org . apache . hadoop . conf . Configuration ; import org . apache . hadoop . fs . * ; import org . junit . After ; import org . junit . Before ; import org . junit . Test ; import java . io . File ; import java . io . IOException ; import java . net . URI ; import java . net . URISyntaxException ; import static java . lang . System . out ; /** * @ClassName:HDFSclient * @author: zhengkw * @description: HDFS客户端 * @date: 20/02/20上午 11:28 * @version:1.0 * @since: jdk 1.8 */ public class HDFSclient { private FileSystem fileSystem ; /** * @descrption:创建目录优先级 *

【Hbase】知识总结

阅读更多关于【Hbase】知识总结

Hbase的简介 Hbase的来源 1、数据量越来越大，传统的关系型数据库，不能满足存储和查询功能的需求。而hive虽然能够满足存储的要求，但是hive的本质也是利用底层的mr，所以读写速度不快，而且hive不能满足非结构化，半结构化的存储，hive主要的作用是分析和统计，hive用于存储是毫无意义的。 2、起源于Google在2006发表的一篇论文《bigtable》，是对bigtable的开源实现的java版本 Hbase的定义 Hbase是一个在HDFS上运行的，面向列的，分布式的，hadoop数据库。他是一个非关系型()(Not Only Sql)的数据库，不是传统的非关系型数据库，对事物支持很差起源于《BigTable》 Hbase的特征 1、适合存储超大规模的数据集，可以提供数据的实施读写。 2、线性扩展好，高的可靠性。 3、Hbase的表模型与关系型数据库的表模型不同： a)Hbase表中没有固定的字段定义 b)Hbase表中每行存储的都是些key-value对 c)Hbase表中有列簇的划分，用户可以指定将哪些kv插入哪个列簇 d)Hbase的表在物理存储上，是按照列簇来切分的，不同列簇的数据一定存储在不同的文件中 e)Hbase表中的每一行都有固定的行键作为唯一标识，每行的行键在表中是不能重复的 4、Hbase中的数据，包含行键、key、value都是byte[

hadoop集群委任和解除节点

阅读更多关于 hadoop集群委任和解除节点

Hadoop集群经常需要添加节点或者从集群中移出故障节点。委任新datanode 向集群添加datanode，需要通过hdfs的hdfs-site.xml的配置参数dfs.hosts来实现，然后启动datanode进程。将源集群的配置文件拷贝至新节点待用。在配置文件路径/opt/module/hadoop-2.6.0/etc/hadoop添加include.txt文件 # cat include.txt node4 master 在hdfs-site.xml中添加配置 <property> <name>dfs.hosts</name> <value>/opt/module/hadoop-2.6.0/etc/hadoop/include.txt</value> </property> 在namenode上刷新节点信息 $ hdfs dfsadmin -refreshNodes 修改slaves文件，添加新节点主机名 $ cat slaves node1 node2 node3 node4 master 启动新节点datanode $ hadoop-daemon.sh start datanode 通过web查看解除节点解除节点是通过dfs的hdfs-site.xml的配置参数dfs.hosts.exclude来实现，然后删除slaves文件中对应节点。

大数据高可用集群环境安装与配置（06）——安装Hadoop高可用集群

阅读更多关于大数据高可用集群环境安装与配置（06）——安装Hadoop高可用集群

下载Hadoop安装包登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站，找到我们要安装的版本，点击进去复制下载链接安装Hadoop时要注意版本与后续安装的HBase、Spark等相关组件的兼容，不要安装了不匹配的版本，而导致某些组件需要重装输入命令进行安装操作 cd /usr/local/src/ wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz tar -zxvf hadoop-2.7.7.tar.gz mv hadoop-2.7.7 /usr/local/hadoop/ 修改服务器系统环境变量所有服务器都需要按要求修改配置 vi /etc/profile 在尾部添加下面配置 export HADOOP_HOME=/usr/local/hadoop/ export PATH=$PATH:$HADOOP_HOME/bin 保存退出后，运行命令，让配置马上生效 source /etc/profile 创建Hadoop需要的文件夹 # 所有服务器都需要执行创建hadoop的tmp文件夹 mkdir -p /data/hadoop/ #

Hadoop原理笔记

阅读更多关于 Hadoop原理笔记

1：Hadoop家族 2：Hadoop的两大核心 3：HDFS介绍 4：HDFS结构 5：HDFS架构图 6：HDFS的数据存储单元（Block） 7：HDFS设计思想 8：NameNode（NN）介绍 9：Secondary NameNode（SNN） SNN合并流程 10：DataNode（DN） Block副本放置策略 11：HDFS读流程客户端并行从各个Block中读取。 12：HDFS写流程客户端只写第一个副本，其他副本由DataNode之间复制。 13：HDFS文件权限来源： CSDN 作者：天地北斗七星链接： https://blog.csdn.net/weixin_45000314/article/details/104727018

How to avoid small file problem while writing to hdfs & s3 from spark-sql-streaming

阅读更多关于 How to avoid small file problem while writing to hdfs & s3 from spark-sql-streaming

问题 Me using spark-sql-2.3.1v , kafka with java8 in my project. With --driver-memory 4g \ --driver-cores 2 \ --num-executors 120 \ --executor-cores 1 \ --executor-memory 768m \ At consumer side , me trying to write the files in hdfs Me using something like this below code dataSet.writeStream() .format("parquet") .option("path", parqetFileName) .option("mergeSchema", true) .outputMode("Append") .partitionBy("company_id","date") .option("checkpointLocation", checkPtLocation) .trigger(Trigger

订阅 HDFS