HDFS | 易学教程

hadoop初识

阅读更多关于 hadoop初识

1.hadoop是什么？ hadoop之父是Doug Cutting。是由很多技术框架组成的生态系统，包括数据库（nosql）。Apache开源框架集群，做分布式计算和离线运算、实时运算。受Google三篇论文启发出现的。（GFS、MapReduce、Big Table数据库） GFS、MapReduce、Hbase 搜索引擎的原理？爬虫和搜索。一般称为搜索引擎。称为站内搜索。 2.解决问题？ ·海量数据的存储（HDFS） ·海量数据的分析模型（MapReduce） ·资源管理调度（YARN）：从MapReduce中分离出来的。狭义的hadoop：由HDFS和MapReduce组成。 spark、storm；运算框架 3.场景1：假设myqsl中有几十个T的数据。在hadoop中，一般的解决方式是把mysql中的记录导出为文本文件。或者生成为文本文件。再对本文件进行处理。 hive认识sql语句。 4.Hadoop具体能干什么？狭义hadoop擅长海量离线日志分析。广义hadoop擅长海量离线日志分析、在线实时日志分析、海量数据的存储等。 5.怎样解決海量数据的存储？ ①怎样解决存储？ NFS系统：通过节点的文件夹或文件的共享实现大数据量的存储。可以通过文件共享的协议，把很多节点上面的相关文件夹进行共享，在另外一台机器上进行挂载。挂载到本地某个目录下面

Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理

阅读更多关于 Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理

　转载请注明出处： http://www.cnblogs.com/xiaodf/ 　　之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能，本文主要介绍Spark SQL JDBC方式操作Hive库时的身份认证和权限管理实现。　ThriftServer是一个JDBC/ODBC接口，用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候，会启动了一个sparkSQL的应用程序，而通过JDBC/ODBC连接进来的客户端共同分享这个sparkSQL应用程序的资源，也就是说不同的用户之间可以共享数据；ThriftServer启动时还开启一个侦听器，等待JDBC客户端的连接和提交查询。所以，在配置ThriftServer的时候，至少要配置ThriftServer的主机名和端口，如果要使用hive数据的话，还要提供hive metastore的uris。前提：　　本文是在以下几个部署前提下进行的实验：　　（1）CDH 开启了Kerberos身份认证，并安装了Sentry；　　（2）Hive权限通过Sentry服务控制；　　（3）HDFS开启了HDFS ACL与Sentry的权限同步功能，通过sql语句更改Hive表的权限，会同步到相应的HDFS文件。

Hbase数据库

阅读更多关于 Hbase数据库

一、HBase 是什么　　 Apache HBase is the Hadoop database,distributed scalable,versioned, non-relational database modeled after Google's Bigtable. (Apache HBase是 Hadoop 数据库，是模仿 Google 的 Bigtable 建模的分布式可伸缩，版本化，非关系型数据库）。　　可以随机的、实时的进行大数据的读写。　　十几亿行、上百万列，可以运行在普通机器上。　　数据可以存储在 HDFS 。　　面向列的。二、数据存储现状　　 1、RDBMS (Relational Database Management System) 　　　　* MySQL、Oracle、SQL Server ... ... 　　　　 * 有类型且结构化数据　　　　 * 实体类对应着数据库中的表　　　　 * 每一条记录对应着数据库表中的行(row ) 　　　　 * Query：groupBy、Join ... ... 　　　　缺点：大数据，数据量大且会对其做很多操作来抽取出我们有意义的结果。　　　　　　（1）实时查询　　　　　　（2）集群成本高　　　　　　（3） RDBMS 横向扩展来增加的效率是有限的　　　　　　（4）

hdfs常用命令及docker常用命令

阅读更多关于 hdfs常用命令及docker常用命令

1、从hdfs下载文件 hdfs dfs -get hdfs路径本地路径 2、hdfs查看目录下的文件 # hdfs dfs -ls <hdfs路径> 3、hdfs上传文件 # hdfs dfs -put /本地路径 /hdfs路径 4、hdfs创建文件夹 # hdfs dfs -mkdir <hdfs路径/hello> 5、docker中获取权限 kinit usrname 6、docker连续操作两个命令下图中的bash -c 后面引号中的内容是要执行的第二个命令 7、docker映射路径 -v代表映射的路径。：前面的代表本地的实际路径，即把该路径映射到docker中。：后面的代表映射之后的docker的路径 8、docker切换到执行命令的路径 -w代表进入docker之后要切换进入的路径来源： CSDN 作者： jiao_mrswang 链接： https://blog.csdn.net/jiao_mrswang/article/details/103859939

Hive基础

阅读更多关于 Hive基础

Hive基础（一）原创人间怪物最后发布于2018-12-19 15:35:03 阅读数 2918 收藏展开 1.Hive是什么 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 2.Hive架构用户接口: Shell/CLI,CLI（Command Line Interface），Shell 终端命令行，采用交互形式使用 Hive 命令行与 Hive 进行交互。Cli 启动的时候，会同时启动一个 Hive 副本。JDBC/ODBC客户端是Hive的JAVA实现，与传统数据库JDBC类似。Web UI通过浏览器访问hive。主要用来将我们的sql语句提交给hive。 Thrift服务器：Thrift 是 Facebook 开发的一个软件框架，可以用来进行可扩展且跨语言的服务的开发， Hive 集成了该服务，能让不同的编程语言调用 Hive 的接口。元数据库: 存储在 Hive 中的数据的描述信息。Hive 将元数据存储在数据库中，如 mysql、（默认）derby。Hive 中的元数据包括表的名字

如何将本地数据上传到hdfs

阅读更多关于如何将本地数据上传到hdfs

将数据传输到服务器使用xshell将本地数据传到服务器并解压 1.上传：方法一：连接Xftp上传 xftp操作界面直接将要上传的本地文件拖动到对应的服务器位置即可。（要传输的服务器文件夹需要有读写权限）方法二：使用rz。在xshell操作界面输入rz会弹出一个选择上传文件的窗口，选择对应的文件即可。 2.解压gz压缩包进入文件所在位置，输入gunzip xxx.gz,要解压该文件夹下所有的文件可以 gunzip *.gz。文件上传到hdfs hdfs dfs -put /home/xxx.csv /input_local 来源： CSDN 作者：土豆土豆，我是洋芋链接： https://blog.csdn.net/Ni_hao2017/article/details/104047679

HDFS总结

阅读更多关于 HDFS总结

一、简介： HDFS（Hadoop Distributed File System），作为Google File System（GFS）的实现，是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。 HDFS 的关键元素： 1、Block：将一个文件进行分块，通过配置参数( dfs.blocksize)来设置，hadoop2.x版本中是128M，老版本中是64M。 2、NameNode：保存整个文件系统的目录信息、文件信息及分块信息，这是由唯一一台主机专门保存，当然这台主机如果出错，NameNode就失效了。在 Hadoop2.* 开始支持 activity-standy 模式----如果主 NameNode 失效，启动备用主机运行NameNode。 3、DataNode：分布在廉价的计算机上，用于存储Block块文件。 HDFS 运行原理 1、NameNode和DataNode节点初始化完成后，采用RPC进行信息交换，采用的机制是心跳机制，即DataNode节点定时向NameNode反馈状态信息，反馈信息如:是否正常

第1章 HBase简介

阅读更多关于第1章 HBase简介

1、什么是HBase HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站： http://hbase.apache.org – 2006年Google发表BigTable白皮书 – 2006年开始开发HBase – 2008年北京成功开奥运会，程序员默默地将HBase弄成了Hadoop的子项目 – 2010年HBase成为Apache顶级项目 – 现在很多公司二次开发出了很多发行版本，你也开始使用了。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用Chubby作为协同服务

HDFS核心指标

阅读更多关于 HDFS核心指标

作者：焦振清时间：2018-06-26 基于Google的监控方案，将ES监控归为两大类五个子类，分别是黑盒监控和白盒监控（四个黄金指标），详情可以参考书籍《SRE Google运维解密》第53页黑盒监控功能监控白盒监控错误 MissingBlocks（坏块） NumDeadDataNodes（故障节点） CorruptBlocks UnderReplicatedBlocks ExpiredHeartbeats 容量 PercentUsed CallQueueLength TotalFiles TotalBlock 延时 RpcProcessingTimeAvgTime 流量 IO_read IO_write blocks_read blocks_write 指标说明： 1，功能监控，需要周期性检测HDFS集群能否写入文件，读取文件。来源： CSDN 作者： zhinengyunwei 链接： https://blog.csdn.net/zhinengyunwei/article/details/104041473

一、hadoop - 创建单个节点集群

阅读更多关于一、hadoop - 创建单个节点集群

目的准备工作支持的平台需要的软件安装软件下载准备开始Hadoop集群本地操作伪分布式操作配置设置互信ssh通信执行 YARN在单个节点分布式操作目的这篇文档描述了如何创建和配置一个单一节点的hadoop，于是你可以很快地利用Hadoop的MapReduce和Hadoop的分布式文件系统（HDFS，Hadoop Distributed File System）做一些简单的操作。准备工作支持的平台 GNU/Linux 作为开发和生产平台都是支持的。hadoop在GNU/Linux上已经发布了2000个节点。 Windows也是一个支持的平台，但是接下来的步骤都只对于Linux平台。需要的软件 Linux需要的软件包括： Java平台是必须安装的。 ssh必须安装，并且sshd必须运行，因为要利用它来运行Hadoop的脚本从而管理远程hadoop守护进程安装软件如果你的集群没有这些软件，你就需要去安装它们。比如，在Ubuntu Linux上： $ sudo apt-get install ssh $ sudo apt-get install rsync 下载可以从 Apache官方维护镜像文件来下载最新的稳定的Hadoop发布版本。准备开始Hadoop集群将下载的hadoop进行解压。编辑文件/etc/hadoop/hadoop-env

订阅 HDFS