HDFS

Flink on yarn以及实现jobManager 高可用(HA)

旧时模样 提交于 2020-04-24 16:57:26
on yarn https://ci.apache.org/projects/flink/flink-docs-release-1.8/ops/deployment/yarn_setup.html flink on yarn两种方式 第一种方式:在yarn上启动一个长期运行的flink集群 可以把yarn和hdfs相关配置文件拷贝到flink配置目录下,或者直接指定yarn和hdfs配置文件对应的路径 export HADOOP_CONF_DIR=/root/flink-1.8.2/conf cd flink- 1.8 . 2 / . /bin/yarn-session. sh -jm 1024m -tm 4096m -s 16 -jm:jobmanager的内存,-tm:每个taskmanager的内存,-s:the number of processing slots per Task Manager 日志如下 [root@master01 flink- 1.8 . 2 ]# ./bin/yarn-session. sh -jm 1024m -tm 4096m -s 16 2019 - 12 - 10 10 : 05 : 40 , 010 INFO org.apache.flink.configuration.GlobalConfiguration - Loading

yarn上运行flink环境搭建

♀尐吖头ヾ 提交于 2020-04-24 16:56:11
主要完成hadoop集群搭建和yarn上运行flink 1.搭建hadoop伪集群 主要是搭建hadoop MapReduce(yarn)和HDFS 1.1 下载&配置环境变量 这里下载的hadoop二进制包为 2.7.7 ,下载后解压到本地,假设是/usr/hadoop/hadoop-2.7.7 #HADOOP VARIABLES START export HADOOP_INSTALL=/usr/hadoop/hadoop-2.7.7 export HADOOP_HOME=$HADOOP_INSTALL export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP

Flink on yarn的配置及执行

左心房为你撑大大i 提交于 2020-04-24 15:52:02
####1. 写在前面 Flink被誉为第四代大数据计算引擎组件,即可以用作基于离线分布式计算,也可以应用于实时计算。Flink可以自己搭建集群模式已提供为庞大数据的计算。但在实际应用中。都是计算hdfs上的数据文件,所以更多的建立在基于hadoop集群,而hadoop集群的资源调度组件为yarn,所以Flink on yarn本身就是提供了集群模式,将flink计算的资源调度和管理交给yarn,这里详细介绍flink on yarn的配置(默认hadoop几圈是配置没有问题的) ####2. 配置yarn-site.xml 这里的配置主要是配置执行的资源信息 ####3. 配置flink-conf.ymal 注意:最后两行的配置至关重要,如果不配会导致执行的结果没问题,但当flink提交执行结果报错从而导致整个任务进程都在影响下个任务的执行,其他配置都是配置flink的一些基本资源信息 ####4. 执行flink任务 ./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 /wordspace/meijs/yndata-1.0.jar 20180318 15 该命令指定了nodemanager的个数,jobmanager的内存信息和taskmanager的内存信息 当执行任务出现以下信息证明成功

HDFS读写流程

拥有回忆 提交于 2020-04-24 13:59:15
HDFS的写流程: 主要体现的为数据上传到HDFS之上的流程 HDFS读取的流程: -------------------------------------------------------------------------------------------------------------------------------------- 问题: 1.HDFS读写的流程是什么? 来源: oschina 链接: https://my.oschina.net/u/4434424/blog/3689351

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

吃可爱长大的小学妹 提交于 2020-04-24 13:02:35
摘要: 本文由趣头条数据平台负责人王金海分享, 主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景, 内容分为以下四部分: 一、业务场景与现状分析 二、Flink-to-Hive 小时级场景 三、Flink-to-ClickHouse 秒级场景 四、未来发展与思考 一、业务场景与现状分析 趣头条查询的页面分为离线查询页面和实时查询页面。趣头条今年所实现的改造是在实时查询中接入了 ClickHouse 计算引擎。根据不同的业务场景,实时数据报表中会展现数据指标曲线图和详细的数据指标表。目前数据指标的采集和计算为每五分钟一个时间窗口,当然也存在三分钟或一分钟的特殊情况。数据指标数据全部从 Kafka 实时数据中导出,并导入 ClickHouse 进行计算。 二、Flink-to-Hive 小时级场景 1.小时级实现架构图 如下图所示,Database 中的 Binlog 导出到 Kafka,同时 Log Server 数据也会上报到 Kafka。所有数据实时落地到 Kafka 之后,通过 Flink 抽取到 HDFS。下图中 HDFS 到 Hive 之间为虚线,即 Flink 并非直接落地到 Hive,Flink 落地到 HDFS 后,再落地到 Hive 的时间可能是小时级、半小时级甚至分钟级,需要知道数据的 Event time

Hive与HBase的区别与联系

房东的猫 提交于 2020-04-24 08:24:33
Hive与HBase的区别与联系 二者区别 Hive:Hive是基于Hadoop的一个 数据仓库工具 ,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。 Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。 hive需要用到hdfs存储文件,需要用到MapReduce计算框架。 hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。 HBase:HBase是Hadoop的 数据库 ,一个分布式、可扩展、大数据的存储。 hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作 hbase可以认为是hdfs的一个包装。他的本质是数据存储,是个NoSql数据库;hbase部署于hdfs之上,并且克服了hdfs在随机读写方面的缺点。 二者联系 Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。 在大数据架构中,Hive和HBase是协作关系,数据流一般如下图: 通过ETL工具将数据源抽取到HDFS存储; 通过Hive清洗、处理和计算原始数据; HIve清洗处理后的结果,如果是面向海量数据随机查询场景的可存入Hbase

Hadoop3.2.0集群(4节点-无HA)

巧了我就是萌 提交于 2020-04-24 07:03:55
1.准备环境 1.1配置dns # cat /etc/hosts 172.27.133.60 hadoop-01 172.27.133.61 hadoop-02 172.27.133.62 hadoop-03 172.27.133.63 hadoop-04 1.2配置免密登陆 # ssh-keygen # ssh-copy-id root@hadoop-02/03/04 1.3关闭防火墙 # cat /etc/selinux/config SELINUX=disabled # systemctl stop firewalld # systemctl disable firewalld 1.4配置Java环境,Hadoop环境 # tar -xf /data/software/jdk-8u171-linux-x64.tar.gz -C /usr/local/java # tar -xf /data/software/hadoop-3.2.0.tar.gz -C /data/hadoop # cat /etc/profile export HADOOP_HOME=/data/hadoop/hadoop-3.2.0 export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export PATH=$JAVA_HOME/bin:$HADOOP_HOME

Hadoop环境搭建(centos)

为君一笑 提交于 2020-04-23 10:15:43
Hadoop环境搭建(centos) 本平台密码83953588abc 配置Java环境 下载JDK(本实验从/cgsrc 文件中复制到指定目录) mkdir /usr/local/java cp /cgsrc/jdk-8u171-linux-x64.tar.gz /usr/local/java/ JDK至少1.8以上!!! 解压JDK安装包 cd /usr/local/java tar -zxvf jdk-8u171-linux-x64.tar.gz rm -f jdk-8u171-linux-x64.tar.gz 添加环境变量 配置JAVA_HOME环境变量。修改文件 vim ~/.bashrc export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar export PATH=$PATH:${JAVA_HOME}/bin 如果PATH环境变量修改错误,则可能出现Linux常用命令无法找到的现象!!! 使修改环境生效, source ~/.bashrc . 检查是否设置正确. echo $JAVA_HOME #检查变量值 java -version #查看java版本 配置分布式模式

大数据系列之再识Hadoop文件系统HDFS

蹲街弑〆低调 提交于 2020-04-23 06:00:06
CDA数据分析 出品 在搭建伪分布集群或者搭建分布式集群过程中经常提到HDFS,HDFS到底是什么东东呢?今天我们就给小伙伴们详细介绍一下。 1、 HDFS简介 HDFS(Hadoop Distributed File System)是hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。是基于流数据模式访问和处理超大文件的需求而开发的, 可以运行于廉价的商用服务器上。 它所具有的高容错、 高可靠性、 高可扩展性、 高获得性、 高吞吐率等特征为海量数据提供了不怕故障的存储, 为超大数据集(Large Data Set) 的应用处理带来了很多便利。 HDFS是开源的,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是它是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。 2、 HDFS与Hadoop之间的关系 Hadoop是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。 HDFS是hadoop兼容最好的标准级文件系统。 所以可以理解为hadoop是一个框架, HDFS 是Hadoop中的一个部件。 3、 为什么需要HDFS 小量的数据,单机的磁盘是能够很好地处理面对的数据,但当数据量巨大(PB)时,磁盘开始纠结处理我们需要的海量信息

hadoop-3.2.0------>入门十七hadoop之HDFS

放肆的年华 提交于 2020-04-23 05:56:14
产生背景及定义 1、产生背景: 随着数据量越来越大,在一个操作系统存不下所有的数据,那么分配到更多的操作系统管理磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、定义: HDFS是一个文件系统,用于存储文件,通过目录树来定位文件;其次,他是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的功能。 HDFS适合一次写入,多次读出的场景,不支持文件修改。适合做数据分析不适合做网盘应用。 优点 1、高容错性 1、数据自动保存多个副本,他通过增加副本形式,提高高容错性 2、某一个副本丢失之后,他可以自动恢复 2、适合处理大数据 1、数据规模:能够处理数据规模达到GB、TB甚至PB级别的数据 2、文件规模:能够处理百万规模以上的文件数量 3、可以构建在廉价的服务器上,通过多副本机制,提高可靠性。 缺点 1、不适合低延迟数据访问,比如毫秒级存储数据 2、无法高效的对大量小文件进行存储 1、存储大量小文件的话,他会占用NameNode大量的内存存储文件目录和块信息。这样是不可取的,因为NameNode内存是有限的 2、小文件存储的寻址时间会超过读取时间,违反了HDFS设计目标 3、不支持并发写入、文件随机修改 1、一个文件只能由一个线程写入,不允许多个线程同时操作 2、仅支持数据追加