HDFS

Flink1.6系列之—Flink on yarn流程详解

ⅰ亾dé卋堺 提交于 2020-01-14 04:27:49
本篇我们介绍下,Flink在YARN上运行流程: 当开始一个新的Flink yarn 会话时,客户端首先检查所请求的资源(containers和内存)是否可用。如果资源够用,之后,上传一个jar包,包含Flink和HDFS的配置。 客户端向yarn resource manager发送请求,申请一个yarn container去启动ApplicationMaster。 yarn resource manager会在nodemanager上分配一个container,去启动ApplicationMaster yarn nodemanager会将配置文件和jar包下载到对应的container中,进行container容器的初始化。 初始化完成后,ApplicationMaster构建完成。ApplicationMaster会为TaskManagers生成新的Flink配置文件(使得TaskManagers根据配置文件去连接到JobManager),配置文件会上传到HDFS。 ApplicationMaster开始为该Flink应用的TaskManagers分配containers,这个过程会从HDFS上下载jar和配置文件(此处的配置文件是AM修改过的,包含了JobManager的一些信息,比如说JobManager的地址) 一旦上面的步骤完成,Flink已经建立并准备好接受jobs

hive,安装与使用

喜欢而已 提交于 2020-01-13 17:13:58
@@ 对hive的自我见解 hive,安装与使用 本文开始介绍hive的一些基本使用及功能,之中包含了本猿在使用过程中的踩的一些坑,希望大家能批评指出不足,谢谢 一.Hive 安装环境准备 1.Hive 安装地址 1)Hive 官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址: http://archive.apache.org/dist/hive/ 4)github 地址: https://github.com/apache/hive 2.Hive 安装部署 1)Hive 安装及配置 (1)把 apache-hive-1.2.1-bin.tar.gz 上传到 linux 的/opt/software 目录下 (2)解压 apache-hive-1.2.1-bin.tar.gz 到/opt/module/目录下面 [hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ (3)修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive [hadoop102 module]$ mv apache

Calculate the percentage of categories in a column in Hive

删除回忆录丶 提交于 2020-01-13 05:42:10
问题 I have a table, colors in Hive that looks like this: id cname 1 Blue 2 Green 3 Green 4 Blue 5 Blue I need help with writing a Hive query that gives the percentages of each color in the cname column. Something that looks like this: Blue 60% Green 40% Thanks in advance! 回答1: Using analytics functions: select cname, concat(pct, ' %') pct from ( select ( count(*) over (partition by cname)/ count(*) over () )*100 as pct, cname from (--Replace this subquery with your table select stack (5, 1, 'Blue

Kafka Storm HDFS/S3 data flow

流过昼夜 提交于 2020-01-13 04:55:13
问题 It is unclear if you can do a fan-out (duplication) in Kafka like you can in Flume. I'd like to have Kafka save data to HDFS or S3 and send a duplicate of that data to Storm for real time processing. The output of Storm aggregations/analysis will be stored in Cassandra. I see some implementations flowing all data from Kafka into Storm and then two outputs from Storm. However, I'd like to eliminate the dependency of Storm for the raw data storage. Is this possible? Are you aware of any

HDFS 添加组和用户

狂风中的少年 提交于 2020-01-13 03:28:11
Hadoop 3.1.2 独立模式,单节点和多节点伪分布式安装与使用 创建Hadoop集群的时候,创建并使用了hadoop用户,Hadoop也装在hadoop用户目录下。 当Linux用户切换成root访问HDFS时,会报权限错误。 HDFS本身的组和用户都是同步Linux系统的,默认supergroup组和hadoop用户,在Linux组中默认没有supergroup。 创建supergroup组,并添加hadoop用户 groupadd supergroup usermod -a -G supergroup hadoop 根据需要添加用户,这里添加root用户 usermod -a -G supergroup root 现在root访问HDFS,可以创建文件夹等 hadoop fs -mkdir /root hadoop fs -fs / 参考: HDFS中将普通用户增加到超级用户组supergroup以及其应用场景 来源: CSDN 作者: shpunishment 链接: https://blog.csdn.net/qq_36160730/article/details/103816090

块存储Ceph,对象存储Swift,存大文件的HDFS的技术比较

匆匆过客 提交于 2020-01-13 01:51:24
文章目录 1.存储文件的大小 2.存储类型:块存储和对象存储 3.对象存储的概念 5.对象存储和文件系统存储区别 1.存储文件的大小 HDFS、HBase、Hive不太适合存文档、图片大小的文件,HDFS适用于存大文件。 SWIFT:处理几个G的大文件性能上可能会比HDFS差,因为没有条带化。 但遇到很多几兆、几十兆的,这些文件的存储,HDFS就不如SWIFT。 所以对于日常文件的单独处理用SWIFT,集中处理如果达到G级用HDFS。 2.存储类型:块存储和对象存储 如果只要用对象存储,就选择SWIFT;如果只要用块存储,那就Ceph; 既要用对象存储又要用块存储的场合,是用SWIFT还是Ceph呢? ( 1 )如果节点数量很大,推荐用Ceph单独做块,用SWIFT做对象存储,因为在节点数量较大时,Ceph的维护成本比SWIFT要高得多, 大多数场景实际应用的时候会发现,大部分数据都可以放到对象存储上 ; 2 ) 如果节点数量少,那就用Ceph统一搞定,因为一般认为生产环境中最小的分布式存储应当有五个节点,所以,如果节点数量 少于十个或者刚到十来个,那构建两个分布式存储显然是不理想的 ( 考虑到空间划分问题 ) ; 3 ) 如果团队里有牛人能轻松解决Ceph大规模部署问题,那就果断用Ceph ; 4 ) 如果希望对象存储能够和OpenStack其他项目无缝结合,如果希望实现多租户

flume+kafka+hdfs详解

人走茶凉 提交于 2020-01-12 16:55:37
flume架构图 单节点flume配置 flume-1.4.0 启动flume bin/flume-ng agent --conf ./conf -f conf/flume-conf.properties -Dflume.root.logger=DEBUG,console -n agent -n表示配置文件中agent的名字 [java] view plain copy agent.sources = r1 agent.sinks = s1 agent.channels = c1 agent.sources.r1.channels = c1 agent.sinks.s1.channel = c1 #Describe/configure the sources agent.sources.r1.type = exec agent.sources.r1.command = tail -F /home/flume/loginfo #Use a channel which buffers events in memory agent.channels.c1.type = memory agent.channels.c1.capacity = 1000 #Event agent.channels.c1.transactionCapacity = 100 agent.sinks.s1.type

Hadoop 简介

徘徊边缘 提交于 2020-01-12 13:35:06
Hadoop 是一个由Apache基金会所开发的 分布式系统 基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个 分布式文件系统 (Hadoop Distributed File System),简称HDFS。HDFS有高 容错性 的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [1] 。 中文名 海杜普 外文名 Hadoop 类 别 电脑程序 全 称 Hadoop Distributed File System 核心设计 HDFS和MapReduce 学 科 信息科学 目录 1 起源 ▪ 项目起源 ▪ 发展历程 ▪ 名字起源 2 优点 3 核心架构 ▪ HDFS ▪ NameNode ▪ DataNode ▪ 文件操作 ▪ Linux 集群 4 应用程序 5 区别 6 信息安全 7

HBase环境搭建随记

别等时光非礼了梦想. 提交于 2020-01-12 06:41:28
====软件版本==== jdk:jdk-8u77-linux-x64.tar.gz zookeeper:zookeeper-3.4.6.tar.gz hadoop:hadoop-2.7.4.tar.gz hbase:hbase-1.3.1-bin.tar.gz ====前提准备==== 3台vmware虚拟机(已配置无秘钥访问) 其中,/etc/hosts文件内容如下: ====安装jdk==== 上传安装包,解压缩,然后配置环境变量即可。 正常配置之后,在服务器任意路径执行java -version可以显示java版本。如下所示。 ====安装zookeeper==== 这里也不在过多描述,简单罗列一下配置文件。 配置文件:zoo.cfg 需要分别在3个节点的,dataDir路径下生成节点的myid。 启动并验证zookeeper是否正常 启动命令:/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh start 查看状态:/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh status 启动之后,3个节点的状态分别如下: ====安装hadoop==== 因为HBase的底层是基于Hadoop的hdfs的,所以在安装HBase之前,必须要安装Hadoop,并确保hdfs正常。