HDFS

干货!腾讯资深架构解密从分布式到微服务

给你一囗甜甜゛ 提交于 2020-03-09 21:31:33
【推荐】2020年最新Java电子书集合.pdf(吐血整理) >>> 前言 “微服务”架构在这几年被广泛传播,变得非常火热,以至于关于微服务架构相关的开源框架和工具都变得越来越活跃,比如: Netlix OSS、Dubbo、Apache Thrift等。Spring Cloud也因为Spring社区在企业应用领域的广泛知名度和强大影响力,受到了广大架构师与开发者的高度关注。 内容简介 分布式架构与微服务平台是当今IT界的关键技术,也是资深软件工程师和系统架构师必须掌握的核心技术。本书以从传统分布式架构迁移到基于容器技术的微服务架构为主线,全面、透彻地介绍了与分布式架构及微服务相关的知识和技术。本书-开始并没有提及分布式的枯燥理论,而是讲述了一段精彩的IT发展史,其中重点讲述了大型机、UNIX 小机器的没落与X86平台的崛起,从而巧妙地引出CPU、内存、网络、存储的分布式演进过程,这恰恰是分布式软件系统赖以运行的“物质基础”。然后简明扼要地介绍了进行系统架构所必需的网络基础,并详细介绍了分布式系统中的经典理论、设计套路及RPC通信,对内存、SOA架构、分布式存储、分布式计算等进行了深度解析,最后详细介绍了全文检索与消息队列中间件,以及微服务架构所涉及的重点内容。本书是Leader-us多年架构经验的倾情分享,主要面向关注分布式架构及微服务,以及有志于成为实力派架构师的IT人士。

Hadoop架构之1.0

孤街醉人 提交于 2020-03-09 16:10:59
Hadoop架构之1.0 本文主要讲述Hadoop中HDFS的架构,详细的MapReduce将放到后面写一篇专门的博客 文章目录 Hadoop架构之1.0 hadoop1.0架构 HDFS组件 HDFS存储过程 写入操作 读取过程 HDFS的不足 MapReduce架构 MapReduce组件 MapReduce数据处理过程 MapReduce不足 hadoop1.0架构 HDFS组件 NameNode 管理整个文件系统的目录树结构和元数据信息 保管文件与Block块序列之间的对应关系,以及Block块与DataNode节点之间对应关系 Block副本及其存储位置等管理数据 DataNode状态监控 两者通过段时间间隔的心跳来传递管理信息和数据信息,通过这种方式的信息传递,NameNode 可以获知每个 DataNode 保存的 Block 信息、DataNode 的健康状况、命令 DataNode 启动停止等(如果发现某个 DataNode 节点故障,NameNode 会将其负责的 block 在其他 DataNode 上进行备份) 负责接受用户的操作请求 元数据管理操作: **fsimage:**内存命名空间元数据在外存的镜像文件 **editlog:**各种元数据操作的write-ahead-log文件,在体现到内存数据变化前首先会将操作记入editlog中,以防数据丢失。

启动hdfs时,报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件

末鹿安然 提交于 2020-03-09 13:52:23
启动hdfs时,报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件。 经过查看日志,发现 Name node is in safe mode. 解决方法:sudo -uhdfs hdfs dfsadmin -safemode leave 来源: oschina 链接: https://my.oschina.net/comics/blog/3190447

大数据技术之HBase

故事扮演 提交于 2020-03-09 08:44:44
第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop的子项目 -- 2010年HBase成为Apache顶级项目 -- 现在很多公司二次开发出了很多发行版本,你也开始使用了。 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 ,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google

利用API来对HDFS操作(Java)

佐手、 提交于 2020-03-09 07:05:32
package com . zhengkw . hdfs ; import org . apache . hadoop . conf . Configuration ; import org . apache . hadoop . fs . * ; import org . junit . After ; import org . junit . Before ; import org . junit . Test ; import java . io . File ; import java . io . IOException ; import java . net . URI ; import java . net . URISyntaxException ; import static java . lang . System . out ; /** * @ClassName:HDFSclient * @author: zhengkw * @description: HDFS客户端 * @date: 20/02/20上午 11:28 * @version:1.0 * @since: jdk 1.8 */ public class HDFSclient { private FileSystem fileSystem ; /** * @descrption:创建目录 优先级 *

【Hbase】知识总结

萝らか妹 提交于 2020-03-09 06:14:56
Hbase的简介 Hbase的来源 1、数据量越来越大,传统的关系型数据库,不能满足存储和查询功能的需求。而hive虽然能够满足存储的要求,但是hive的本质也是利用底层的mr,所以读写速度不快,而且hive不能满足非结构化,半结构化的存储,hive主要的作用是分析和统计,hive用于存储是毫无意义的。 2、起源于Google在2006发表的一篇论文《bigtable》,是对bigtable的开源实现的java版本 Hbase的定义 Hbase是一个在HDFS上运行的,面向列的,分布式的,hadoop数据库。他是一个非关系型()(Not Only Sql)的数据库,不是传统的非关系型数据库,对事物支持很差起源于《BigTable》 Hbase的特征 1、适合存储超大规模的数据集,可以提供数据的实施读写。 2、线性扩展好,高的可靠性。 3、Hbase的表模型与关系型数据库的表模型不同: a)Hbase表中没有固定的字段定义 b)Hbase表中每行存储的都是些key-value对 c)Hbase表中有列簇的划分,用户可以指定将哪些kv插入哪个列簇 d)Hbase的表在物理存储上,是按照列簇来切分的,不同列簇的数据一定存储在不同的文件中 e)Hbase表中的每一行都有固定的行键作为唯一标识,每行的行键在表中是不能重复的 4、Hbase中的数据,包含行键、key、value都是byte[

hadoop集群委任和解除节点

佐手、 提交于 2020-03-08 22:25:21
Hadoop集群经常需要添加节点或者从集群中移出故障节点。 委任新datanode 向集群添加datanode,需要通过hdfs的hdfs-site.xml的配置参数dfs.hosts来实现,然后启动datanode进程。 将源集群的配置文件拷贝至新节点待用。 在配置文件路径/opt/module/hadoop-2.6.0/etc/hadoop添加include.txt文件 # cat include.txt node4 master 在hdfs-site.xml中添加配置 <property> <name>dfs.hosts</name> <value>/opt/module/hadoop-2.6.0/etc/hadoop/include.txt</value> </property> 在namenode上刷新节点信息 $ hdfs dfsadmin -refreshNodes 修改slaves文件,添加新节点主机名 $ cat slaves node1 node2 node3 node4 master 启动新节点datanode $ hadoop-daemon.sh start datanode 通过web查看 解除节点 解除节点是通过dfs的hdfs-site.xml的配置参数dfs.hosts.exclude来实现,然后删除slaves文件中对应节点。

大数据高可用集群环境安装与配置(06)——安装Hadoop高可用集群

坚强是说给别人听的谎言 提交于 2020-03-08 15:10:09
下载Hadoop安装包 登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 安装Hadoop时要注意版本与后续安装的HBase、Spark等相关组件的兼容,不要安装了不匹配的版本,而导致某些组件需要重装 输入命令进行安装操作 cd /usr/local/src/ wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz tar -zxvf hadoop-2.7.7.tar.gz mv hadoop-2.7.7 /usr/local/hadoop/ 修改服务器系统环境变量 所有服务器都需要按要求修改配置 vi /etc/profile 在尾部添加下面配置 export HADOOP_HOME=/usr/local/hadoop/ export PATH=$PATH:$HADOOP_HOME/bin 保存退出后,运行命令,让配置马上生效 source /etc/profile 创建Hadoop需要的文件夹 # 所有服务器都需要执行创建hadoop的tmp文件夹 mkdir -p /data/hadoop/ #

Hadoop原理笔记

纵然是瞬间 提交于 2020-03-08 09:54:49
1:Hadoop家族 2:Hadoop的两大核心 3:HDFS介绍 4:HDFS结构 5:HDFS架构图 6:HDFS的数据存储单元(Block) 7:HDFS设计思想 8:NameNode(NN)介绍 9:Secondary NameNode(SNN) SNN合并流程 10:DataNode(DN) Block副本放置策略 11:HDFS读流程 客户端并行从各个Block中读取。 12:HDFS写流程 客户端只写第一个副本,其他副本由DataNode之间复制。 13:HDFS文件权限 来源: CSDN 作者: 天地北斗七星 链接: https://blog.csdn.net/weixin_45000314/article/details/104727018

How to avoid small file problem while writing to hdfs & s3 from spark-sql-streaming

。_饼干妹妹 提交于 2020-03-08 09:14:46
问题 Me using spark-sql-2.3.1v , kafka with java8 in my project. With --driver-memory 4g \ --driver-cores 2 \ --num-executors 120 \ --executor-cores 1 \ --executor-memory 768m \ At consumer side , me trying to write the files in hdfs Me using something like this below code dataSet.writeStream() .format("parquet") .option("path", parqetFileName) .option("mergeSchema", true) .outputMode("Append") .partitionBy("company_id","date") .option("checkpointLocation", checkPtLocation) .trigger(Trigger