HDFS

hadoop初识

六眼飞鱼酱① 提交于 2020-01-22 05:49:24
1.hadoop是什么? hadoop之父是Doug Cutting。是由很多技术框架组成的生态系统,包括数据库(nosql)。Apache开源框架集群,做分布式计算和离线运算、实时运算。 受Google三篇论文启发出现的。(GFS、MapReduce、Big Table数据库) GFS、MapReduce、Hbase 搜索引擎的原理? 爬虫和搜索。一般称为搜索引擎。称为站内搜索。 2.解决问题? ·海量数据的存储(HDFS) ·海量数据的分析模型(MapReduce) ·资源管理调度(YARN):从MapReduce中分离出来的。 狭义的hadoop:由HDFS和MapReduce组成。 spark、storm;运算框架 3.场景1:假设myqsl中有几十个T的数据。 在hadoop中,一般的解决方式是把mysql中的记录导出为文本文件。或者生成为文本文件。再对本文件进行处理。 hive认识sql语句。 4.Hadoop具体能干什么? 狭义hadoop擅长海量离线日志分析。 广义hadoop擅长海量离线日志分析、在线实时日志分析、海量数据的存储等。 5.怎样解決海量数据的存储? ①怎样解决存储? NFS系统:通过节点的文件夹或文件的共享实现大数据量的存储。可以通过文件共享的协议,把很多节点上面的相关文件夹进行共享, 在另外一台机器上进行挂载。挂载到本地某个目录下面

Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理

血红的双手。 提交于 2020-01-21 21:55:28
  转载请注明出处: http://www.cnblogs.com/xiaodf/   之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主要介绍Spark SQL JDBC方式操作Hive库时的身份认证和权限管理实现。  ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候,会启动了一个sparkSQL的应用程序,而通过JDBC/ODBC连接进来的客户端共同分享这个sparkSQL应用程序的资源,也就是说不同的用户之间可以共享数据;ThriftServer启动时还开启一个侦听器,等待JDBC客户端的连接和提交查询。所以,在配置ThriftServer的时候,至少要配置ThriftServer的主机名和端口,如果要使用hive数据的话,还要提供hive metastore的uris。 前提:   本文是在以下几个部署前提下进行的实验:   (1)CDH 开启了Kerberos身份认证,并安装了Sentry;   (2)Hive权限通过Sentry服务控制;   (3)HDFS开启了HDFS ACL与Sentry的权限同步功能,通过sql语句更改Hive表的权限,会同步到相应的HDFS文件。

Hbase数据库

 ̄綄美尐妖づ 提交于 2020-01-21 17:36:02
一、HBase 是什么    Apache HBase is the Hadoop database,distributed scalable,versioned, non-relational database modeled after Google's Bigtable. (Apache HBase是 Hadoop 数据库,是模仿 Google 的 Bigtable 建模的分布式可伸缩,版本化,非关系型数据库)。    可以随机的、实时的进行大数据的读写。    十几亿行、上百万列,可以运行在普通机器上。    数据可以存储在 HDFS 。    面向列的。 二、数据存储现状    1、RDBMS (Relational Database Management System)     * MySQL、Oracle、SQL Server ... ...      * 有类型且结构化数据      * 实体类对应着数据库中的表      * 每一条记录对应着数据库表中的行(row )      * Query:groupBy、Join ... ...      缺点: 大数据,数据量大且会对其做很多操作来抽取出我们有意义的结果。       (1) 实时查询       (2) 集群成本高       (3) RDBMS 横向扩展来增加的效率是有限的       (4)

hdfs常用命令及docker常用命令

左心房为你撑大大i 提交于 2020-01-21 14:27:00
1、从hdfs下载文件 hdfs dfs -get hdfs路径 本地路径 2、hdfs查看目录下的文件 # hdfs dfs -ls <hdfs路径> 3、hdfs上传文件 # hdfs dfs -put /本地路径 /hdfs路径 4、hdfs创建文件夹 # hdfs dfs -mkdir <hdfs路径/hello> 5、docker中获取权限 kinit usrname 6、docker连续操作两个命令 下图中的bash -c 后面引号中的内容是要执行的第二个命令 7、docker映射路径 -v代表映射的路径。:前面的代表本地的实际路径,即把该路径映射到docker中。:后面的代表映射之后的docker的路径 8、docker切换到执行命令的路径 -w代表进入docker之后要切换进入的路径 来源: CSDN 作者: jiao_mrswang 链接: https://blog.csdn.net/jiao_mrswang/article/details/103859939

Hive基础

五迷三道 提交于 2020-01-20 18:44:20
Hive基础(一) 原创人间怪物 最后发布于2018-12-19 15:35:03 阅读数 2918 收藏 展开 1.Hive是什么 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 2.Hive架构 用户接口: Shell/CLI,CLI(Command Line Interface),Shell 终端命令行,采用交互形式使用 Hive 命令行与 Hive 进行交互。Cli 启动的时候,会同时启动一个 Hive 副本。JDBC/ODBC客户端是Hive的JAVA实现,与传统数据库JDBC类似。Web UI通过浏览器访问hive。主要用来将我们的sql语句提交给hive。 Thrift服务器:Thrift 是 Facebook 开发的一个软件框架,可以用来进行可扩展且跨语言的服务的开发, Hive 集成了该服务,能让不同的编程语言调用 Hive 的接口。 元数据库: 存储在 Hive 中的数据的描述信息。Hive 将元数据存储在数据库中,如 mysql、(默认)derby。Hive 中的元数据包括表的名字

如何将本地数据上传到hdfs

蹲街弑〆低调 提交于 2020-01-20 12:32:14
将数据传输到服务器 使用xshell将本地数据传到服务器并解压 1.上传: 方法一:连接Xftp上传 xftp操作界面 直接将要上传的本地文件拖动到对应的服务器位置即可。(要传输的服务器文件夹需要有读写权限) 方法二: 使用rz。在xshell操作界面输入rz会弹出一个选择上传文件的窗口,选择对应的文件即可。 2.解压gz压缩包 进入文件所在位置,输入gunzip xxx.gz,要解压该文件夹下所有的文件可以 gunzip *.gz。 文件上传到hdfs hdfs dfs -put /home/xxx.csv /input_local 来源: CSDN 作者: 土豆土豆,我是洋芋 链接: https://blog.csdn.net/Ni_hao2017/article/details/104047679

HDFS总结

大城市里の小女人 提交于 2020-01-20 04:39:23
一、简介: HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。 HDFS 的关键元素: 1、Block:将一个文件进行分块,通过配置参数( dfs.blocksize)来设置,hadoop2.x版本中是128M,老版本中是64M。 2、NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了。在 Hadoop2.* 开始支持 activity-standy 模式----如果主 NameNode 失效,启动备用主机运行NameNode。 3、DataNode:分布在廉价的计算机上,用于存储Block块文件。 HDFS 运行原理 1、NameNode和DataNode节点初始化完成后,采用RPC进行信息交换,采用的机制是心跳机制,即DataNode节点定时向NameNode反馈状态信息,反馈信息如:是否正常

第1章 HBase简介

人盡茶涼 提交于 2020-01-20 01:13:30
1、什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站: http://hbase.apache.org – 2006年Google发表BigTable白皮书 – 2006年开始开发HBase – 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop的子项目 – 2010年HBase成为Apache顶级项目 – 现在很多公司二次开发出了很多发行版本,你也开始使用了。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务

HDFS核心指标

半城伤御伤魂 提交于 2020-01-20 01:01:06
作者:焦振清 时间:2018-06-26 基于Google的监控方案,将ES监控归为两大类五个子类,分别是黑盒监控和白盒监控(四个黄金指标),详情可以参考书籍《SRE Google运维解密》第53页 黑盒监控 功能监控 白盒监控 错误 MissingBlocks(坏块) NumDeadDataNodes(故障节点) CorruptBlocks UnderReplicatedBlocks ExpiredHeartbeats 容量 PercentUsed CallQueueLength TotalFiles TotalBlock 延时 RpcProcessingTimeAvgTime 流量 IO_read IO_write blocks_read blocks_write 指标说明: 1,功能监控,需要周期性检测HDFS集群能否写入文件,读取文件。 来源: CSDN 作者: zhinengyunwei 链接: https://blog.csdn.net/zhinengyunwei/article/details/104041473

一、hadoop - 创建单个节点集群

允我心安 提交于 2020-01-19 21:48:43
目的 准备工作 支持的平台 需要的软件 安装软件 下载 准备开始Hadoop集群 本地操作 伪分布式操作 配置 设置互信ssh通信 执行 YARN在单个节点 分布式操作 目的 这篇文档描述了如何创建和配置一个单一节点的hadoop,于是你可以很快地利用Hadoop的MapReduce和Hadoop的分布式文件系统(HDFS,Hadoop Distributed File System)做一些简单的操作。 准备工作 支持的平台 GNU/Linux 作为开发和生产平台都是支持的。hadoop在GNU/Linux上已经发布了2000个节点。 Windows也是一个支持的平台,但是接下来的步骤都只对于Linux平台。 需要的软件 Linux需要的软件包括: Java平台是必须安装的。 ssh必须安装,并且sshd必须运行,因为要利用它来运行Hadoop的脚本从而管理远程hadoop守护进程 安装软件 如果你的集群没有这些软件,你就需要去安装它们。 比如,在Ubuntu Linux上: $ sudo apt-get install ssh $ sudo apt-get install rsync 下载 可以从 Apache官方维护镜像文件 来下载最新的稳定的Hadoop发布版本。 准备开始Hadoop集群 将下载的hadoop进行解压。编辑文件/etc/hadoop/hadoop-env