HDFS | 易学教程

Flink on yarn以及实现jobManager 高可用(HA)

阅读更多关于 Flink on yarn以及实现jobManager 高可用(HA)

on yarn https://ci.apache.org/projects/flink/flink-docs-release-1.8/ops/deployment/yarn_setup.html flink on yarn两种方式第一种方式：在yarn上启动一个长期运行的flink集群可以把yarn和hdfs相关配置文件拷贝到flink配置目录下，或者直接指定yarn和hdfs配置文件对应的路径 export HADOOP_CONF_DIR=/root/flink-1.8.2/conf cd flink- 1.8 . 2 / . /bin/yarn-session. sh -jm 1024m -tm 4096m -s 16 -jm：jobmanager的内存，-tm：每个taskmanager的内存，-s：the number of processing slots per Task Manager 日志如下 [root@master01 flink- 1.8 . 2 ]# ./bin/yarn-session. sh -jm 1024m -tm 4096m -s 16 2019 - 12 - 10 10 : 05 : 40 , 010 INFO org.apache.flink.configuration.GlobalConfiguration - Loading

yarn上运行flink环境搭建

阅读更多关于 yarn上运行flink环境搭建

主要完成hadoop集群搭建和yarn上运行flink 1.搭建hadoop伪集群主要是搭建hadoop MapReduce(yarn)和HDFS 1.1 下载&配置环境变量这里下载的hadoop二进制包为 2.7.7 ,下载后解压到本地，假设是/usr/hadoop/hadoop-2.7.7 #HADOOP VARIABLES START export HADOOP_INSTALL=/usr/hadoop/hadoop-2.7.7 export HADOOP_HOME=$HADOOP_INSTALL export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP

Flink on yarn的配置及执行

阅读更多关于 Flink on yarn的配置及执行

####1. 写在前面 Flink被誉为第四代大数据计算引擎组件，即可以用作基于离线分布式计算，也可以应用于实时计算。Flink可以自己搭建集群模式已提供为庞大数据的计算。但在实际应用中。都是计算hdfs上的数据文件，所以更多的建立在基于hadoop集群，而hadoop集群的资源调度组件为yarn，所以Flink on yarn本身就是提供了集群模式，将flink计算的资源调度和管理交给yarn，这里详细介绍flink on yarn的配置(默认hadoop几圈是配置没有问题的) ####2. 配置yarn-site.xml 这里的配置主要是配置执行的资源信息 ####3. 配置flink-conf.ymal 注意:最后两行的配置至关重要，如果不配会导致执行的结果没问题，但当flink提交执行结果报错从而导致整个任务进程都在影响下个任务的执行，其他配置都是配置flink的一些基本资源信息 ####4. 执行flink任务 ./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 /wordspace/meijs/yndata-1.0.jar 20180318 15 该命令指定了nodemanager的个数，jobmanager的内存信息和taskmanager的内存信息当执行任务出现以下信息证明成功

HDFS读写流程

阅读更多关于 HDFS读写流程

HDFS的写流程：主要体现的为数据上传到HDFS之上的流程 HDFS读取的流程： -------------------------------------------------------------------------------------------------------------------------------------- 问题： 1.HDFS读写的流程是什么？来源： oschina 链接： https://my.oschina.net/u/4434424/blog/3689351

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

阅读更多关于趣头条基于 Flink+ClickHouse 构建实时数据分析平台

摘要：本文由趣头条数据平台负责人王金海分享，主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景，内容分为以下四部分：一、业务场景与现状分析二、Flink-to-Hive 小时级场景三、Flink-to-ClickHouse 秒级场景四、未来发展与思考一、业务场景与现状分析趣头条查询的页面分为离线查询页面和实时查询页面。趣头条今年所实现的改造是在实时查询中接入了 ClickHouse 计算引擎。根据不同的业务场景，实时数据报表中会展现数据指标曲线图和详细的数据指标表。目前数据指标的采集和计算为每五分钟一个时间窗口，当然也存在三分钟或一分钟的特殊情况。数据指标数据全部从 Kafka 实时数据中导出，并导入 ClickHouse 进行计算。二、Flink-to-Hive 小时级场景 1.小时级实现架构图如下图所示，Database 中的 Binlog 导出到 Kafka，同时 Log Server 数据也会上报到 Kafka。所有数据实时落地到 Kafka 之后，通过 Flink 抽取到 HDFS。下图中 HDFS 到 Hive 之间为虚线，即 Flink 并非直接落地到 Hive，Flink 落地到 HDFS 后，再落地到 Hive 的时间可能是小时级、半小时级甚至分钟级，需要知道数据的 Event time

Hive与HBase的区别与联系

阅读更多关于 Hive与HBase的区别与联系

Hive与HBase的区别与联系二者区别 Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。 Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。 hive需要用到hdfs存储文件，需要用到MapReduce计算框架。 hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。 HBase：HBase是Hadoop的数据库，一个分布式、可扩展、大数据的存储。 hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作 hbase可以认为是hdfs的一个包装。他的本质是数据存储，是个NoSql数据库；hbase部署于hdfs之上，并且克服了hdfs在随机读写方面的缺点。二者联系 Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。在大数据架构中，Hive和HBase是协作关系，数据流一般如下图：通过ETL工具将数据源抽取到HDFS存储；通过Hive清洗、处理和计算原始数据； HIve清洗处理后的结果，如果是面向海量数据随机查询场景的可存入Hbase

Hadoop3.2.0集群（4节点-无HA）

阅读更多关于 Hadoop3.2.0集群（4节点-无HA）

1.准备环境 1.1配置dns # cat /etc/hosts 172.27.133.60 hadoop-01 172.27.133.61 hadoop-02 172.27.133.62 hadoop-03 172.27.133.63 hadoop-04 1.2配置免密登陆 # ssh-keygen # ssh-copy-id root@hadoop-02/03/04 1.3关闭防火墙 # cat /etc/selinux/config SELINUX=disabled # systemctl stop firewalld # systemctl disable firewalld 1.4配置Java环境,Hadoop环境 # tar -xf /data/software/jdk-8u171-linux-x64.tar.gz -C /usr/local/java # tar -xf /data/software/hadoop-3.2.0.tar.gz -C /data/hadoop # cat /etc/profile export HADOOP_HOME=/data/hadoop/hadoop-3.2.0 export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export PATH=$JAVA_HOME/bin:$HADOOP_HOME

Hadoop环境搭建(centos)

阅读更多关于 Hadoop环境搭建(centos)

Hadoop环境搭建(centos) 本平台密码83953588abc 配置Java环境下载JDK(本实验从/cgsrc 文件中复制到指定目录) mkdir /usr/local/java cp /cgsrc/jdk-8u171-linux-x64.tar.gz /usr/local/java/ JDK至少1.8以上！！！解压JDK安装包 cd /usr/local/java tar -zxvf jdk-8u171-linux-x64.tar.gz rm -f jdk-8u171-linux-x64.tar.gz 添加环境变量配置JAVA_HOME环境变量。修改文件 vim ~/.bashrc export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar export PATH=$PATH:${JAVA_HOME}/bin 如果PATH环境变量修改错误，则可能出现Linux常用命令无法找到的现象！！！使修改环境生效， source ~/.bashrc . 检查是否设置正确. echo $JAVA_HOME #检查变量值 java -version #查看java版本配置分布式模式

大数据系列之再识Hadoop文件系统HDFS

阅读更多关于大数据系列之再识Hadoop文件系统HDFS

CDA数据分析出品在搭建伪分布集群或者搭建分布式集群过程中经常提到HDFS，HDFS到底是什么东东呢？今天我们就给小伙伴们详细介绍一下。 1、 HDFS简介 HDFS（Hadoop Distributed File System）是hadoop项目的核心子项目，是分布式计算中数据存储管理的基础。是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。 HDFS是开源的，存储着Hadoop应用将要处理的数据，类似于普通的Unix和linux文件系统，不同的是它是实现了google的GFS文件系统的思想，是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。 2、 HDFS与Hadoop之间的关系 Hadoop是一个以一种可靠、高效、可伸缩的方式进行处理的，能够对大量数据进行分布式处理的系统框架。 HDFS是hadoop兼容最好的标准级文件系统。所以可以理解为hadoop是一个框架， HDFS 是Hadoop中的一个部件。 3、为什么需要HDFS 小量的数据，单机的磁盘是能够很好地处理面对的数据，但当数据量巨大（PB）时，磁盘开始纠结处理我们需要的海量信息

hadoop-3.2.0------>入门十七hadoop之HDFS

阅读更多关于 hadoop-3.2.0------>入门十七hadoop之HDFS

产生背景及定义 1、产生背景：随着数据量越来越大，在一个操作系统存不下所有的数据，那么分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、定义： HDFS是一个文件系统，用于存储文件，通过目录树来定位文件；其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的功能。 HDFS适合一次写入，多次读出的场景，不支持文件修改。适合做数据分析不适合做网盘应用。优点 1、高容错性 1、数据自动保存多个副本，他通过增加副本形式，提高高容错性 2、某一个副本丢失之后，他可以自动恢复 2、适合处理大数据 1、数据规模：能够处理数据规模达到GB、TB甚至PB级别的数据 2、文件规模：能够处理百万规模以上的文件数量 3、可以构建在廉价的服务器上，通过多副本机制，提高可靠性。缺点 1、不适合低延迟数据访问，比如毫秒级存储数据 2、无法高效的对大量小文件进行存储 1、存储大量小文件的话，他会占用NameNode大量的内存存储文件目录和块信息。这样是不可取的，因为NameNode内存是有限的 2、小文件存储的寻址时间会超过读取时间，违反了HDFS设计目标 3、不支持并发写入、文件随机修改 1、一个文件只能由一个线程写入，不允许多个线程同时操作 2、仅支持数据追加

订阅 HDFS