HDFS

Hadoop集群启动

白昼怎懂夜的黑 提交于 2021-01-03 07:46:23
1、初始化集群 要启动 Hadoop集群,需要启动HDFS和YARN两个集群 注意:首次启动 HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作, 因为此时的HDFS在物理上还是不存在的 命令: hdfs namenode -format或hadoop namenode -format 2、启动集群 1)单个节点逐个启动 在主节点上使用以下命令启动 HDFS NameNode: Hadoop-daemon.sh start namenode 在每个从节点上使用以下命令启动 HDFS DataNode: Hadoop-daemon.sh start datanode 在主节点上使用以下命令启动 YARN ResourceManager: Yarn-daemon.sh start resourcemanager 在每个从节点上使用以下命令启动 YARN nodemanager: Yarn-daemon.sh start nodemanager 以上脚本位于 hadoop-2.7.6/sbin目录下,若想停止只需把命令中start改为stop 即可 2)脚本一键启动 如果配置了 etc/hadoop/slaves和ssh免密登陆,则可以实用程序脚本启动所有Hadoop两个集群的相关进程,在主节点上所设定的机器上执行 hdfs:hadoop-2.7.6/sbin/

Hadoop 启动/停止集群和节点的命令

我与影子孤独终老i 提交于 2021-01-03 07:36:51
集群 启动/停止Hadoop集群:start-all.sh stop-all.sh 1) 启动NameNode, DataNode 2) 启动JournalNode, JournalNode在hdfs-site.xml中指定edits log存储的位置,主备NameNode共享数据,方便同步 3) 启动DFSZKFailoverController, HA会启用ZooKeeper Failover Controller 4) 启动YARN守护进程ResourceManager, NodeManager 启动/停止HDFS集群:start-dfs.sh stop-dfs.sh 1) 启动NameNode, DataNode 2) 启动JournalNode, JournalNode在hdfs-site.xml中指定edits log存储的位置,主备NameNode共享数据,方便同步 3) 启动DFSZKFailoverController, HA会启用ZooKeeper Failover Controller 启动/停止YARN集群:start-yarn.sh stop-yarn.sh 据说如果ResourceManager和NameNode不在同一台机器上,那NameNode上无法直接使用start-yarn.sh启动ResourceManager,但NodeManager可以启动

Hadoop启动脚本分析

时间秒杀一切 提交于 2021-01-01 06:44:13
1 基本概述 Hadoop的命令位于${HADOOP_HOME}/bin、${HADOOP_HOME}/sbin、${HADOOP_HOME}/libexec下面。包含了Linux的shell脚本和windows的批处理文件。本文主要解析linux下的shell脚本。 2 脚本详解 2.1 start-all.sh 要启动 Hadoop的各节点和其他服务,这是一个绕不开的启动脚本,该脚本位于${HADOOP_HOME}/sbin下。不过在Hadoop的2.x版本中,Hadoop官方已经宣布被弃用了。接下来,就详细地分析一下该脚本是如何工作的: 1、首先脚本开头有一段注释: # Start all hadoop daemons. Run this on master node. 中文意思是:启动所有的进程(也就是各节点),在管理节点(也就是namenode-名称节点)上运行该脚本。 2、如果是2.x版本会有 echo "This script is Deprecated. Instead usestart-dfs.sh and start-yarn.sh" 的提示,意思该脚本已经过时,该脚本已经被start-dfs.sh和 start-yarn.sh替代使用。 3、 bin=`dirname"${BASH_SOURCE-$0}"` ,提取start-all.sh的所在的绝对路径。 4

How to find optimal number of mappers when running Sqoop import and export?

别来无恙 提交于 2020-12-30 07:50:33
问题 I'm using Sqoop version 1.4.2 and Oracle database. When running Sqoop command. For example like this: ./sqoop import \ --fs <name node> \ --jt <job tracker> \ --connect <JDBC string> \ --username <user> --password <password> \ --table <table> --split-by <cool column> \ --target-dir <where> \ --verbose --m 2 We can specify --m - how many parallel tasks do we want Sqoop to run (also they might be accessing Database at same time). Same option is available for ./sqoop export <...> Is there some

Spark Streaming

痞子三分冷 提交于 2020-12-29 02:33:38
Spark Streaming 一、 介绍 Spark Streaming 是 Spark 核心 API 的一个扩展, 可以 实现高 吞吐 量的、 具备 容错机制的实时 流数据的 处理。 支持 从 多种 数据源获取数据, 包括kafka 、 flume 、 twitter 等。 Spark 的各个 子 框架核心都是 Spark Core 。 Spark Streaming 内部处理机制是:接受实时流的数据, 并 根据一定的时间间隔拆分成一批批的数据,然后通过 Spark Engine 处理这批数据, 最终 得到处理后的一批批结果数据。对应的批数据, 在Spark 内核对应一个 RDD 实例, 因此 , 对应 流数据的 DStream 可以看成是一组 RDDs, 即 RDD 的一个序列。 Spark Streaming 的基本原理是将输入数据流以时间片(秒级)为单位进行拆分,然后以类似批处理的方式处理每个时间片数据,基本原理图如下: 首先, Spark Streaming 把实时输入数据流以时间片Δ t (如 1 秒)为单位切分成块。 Spark Streaming 会把每块数据作为一个 RDD ,并使用 RDD 操作处理每一小块数据。每个块都会生成一个 Spark Job 处理,最终结果也返回多块。 二、 容错 DStream 基于 RDD 组成, RDD 的容错性依旧有效

Kylin 大数据下的OLAP解决方案和行业典型应用

依然范特西╮ 提交于 2020-12-28 00:30:28
最近工作中应用到了 Kylin,因此调研了 Kylin的原理和行业应用。本文参考了官网和众多其他公司中 Kylin的应用案例,文末给出了出处,希望对大家有帮助。 Apache Kylin的原理和技术架构 Apache Kylin 从数据仓库中最常用的Hive中读取源数据,使用 MapReduce作为Cube构建的引擎,并把预计算结果保存在HBase中,对外暴露Rest API/JDBC/ODBC的查询接口。 Apache Kylin系统主要可以分为在线查询和离线构建两部分,具体架构图如下: Apache Kylin在百度地图的实践 对于 Apache Kylin 在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。目前,百度地图大数据 OLAP 多维分析平台承载百度地图内部多个基于 Apache Kylin 引擎的亿级多维分析查询项目,共计约 80 个 cube,平均半年时间的历史数据,共计约 50 亿行的源数据规模,单表最大数据量为 20 亿 + 条源数据,满足大时间区间、复杂条件过滤、多维汇总聚合的单条 SQL 查询毫秒级响应,较为高效地解决了亿级大数据交互查询的性能需求。 Kylin 有效解决的痛点问题: 痛点一:百亿级海量数据多维指标动态计算耗时问题,Apache Kylin 通过预计算生成 Cube 结果数据集并存储到 HBase 的方式解决。

bilibili大数据一面问题梳理

 ̄綄美尐妖づ 提交于 2020-12-25 14:27:28
Blibli一面 1:kfk 整体架构的三个概念(名词) 2:kfk broker里的名词 3:kfk 分区一个消费的慢,一个消费的快,这是什么原因,怎么分析呢 4:kfk的分区副本follower同步leader流程说明下 5:查看磁盘、网络IO,顺序读写、随机读写的方法 6:kfk 某主题10个分区,消费者组有11个消费者线程,那么第十一个线程会干什么 7:zero copy原理描述下 8:zero copy生效的场景是什么,kfk 生产进来一大批数据、今天不消费,明天消费,那么会用到zero copy吗 9:kfk map file的配置 10:kfk启动时加载的是什么文件 11:ISR列表缺失问题处理方法 12:内核级调优用过哪些? 13:hadoop HDFS 的组件罗列下 14:zkfc的作用 15:CAP理论描述下 16:journeyNode的作用 17:NN HA failOver流程概述下 18:HBASE、Kfk的CLOSE_WAIT现象有哪些 19:TCP、三次握手四次挥手 20:如何查看一个broker的流量数据流出?消费、生产端ip信息如何获取? 本文分享自微信公众号 - 小晨说数据(flink-spark)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源:

Spark学习之Spark Streaming

淺唱寂寞╮ 提交于 2020-12-25 05:47:23
一、简介   许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。   和 Spark 基于 RDD 的概念很相似,Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。DStream 可以从各种输入源创建,比如 Flume、Kafka 或者 HDFS。创建出来的 DStream 支持两种操作,一种是转化操作(transformation),会生成一个新的DStream,另一种是输出操作(output operation),可以把数据写入外部系统中。DStream提供了许多与 RDD 所支持的操作相类似的操作支持,还增加了与时间相关的新操作,比如滑动窗口。   和批处理程序不同,Spark Streaming 应用需要进行额外配置来保证 24/7 不间断工作。Spark Streaming 的检查点

Flink DataStream API编程指南

北慕城南 提交于 2020-12-24 23:47:03
点击上方“蓝字”关注我们 Flink DataStream API主要分为三个部分,分别为Source、Transformation以及Sink,其中Source是数据源,Flink内置了很多数据源,比如最常用的Kafka。Transformation是具体的转换操作,主要是用户定义的处理数据的逻辑,比如Map,FlatMap等。Sink(数据汇)是数据的输出,可以把处理之后的数据输出到存储设备上,Flink内置了许多的Sink,比如Kafka,HDFS等。另外除了Flink内置的Source和Sink外,用户可以实现自定义的Source与Sink。考虑到内置的Source与Sink使用起来比较简单且方便,所以,关于内置的Source与Sink的使用方式不在本文的讨论范围之内,本文会先从自定义Source开始说起,然后详细描述一些常见算子的使用方式,最后会实现一个自定义的Sink。 数据源 Flink内部实现了比较常用的数据源,比如基于文件的,基于Socket的,基于集合的等等,如果这些都不能满足需求,用户可以自定义数据源,下面将会以MySQL为例,实现一个自定义的数据源。本文的所有操作将使用该数据源,具体代码如下: /** * @Created with IntelliJ IDEA. * @author : jmx * @Date : 2020/4/14 * @Time : 17

大数据节点轮换

北城余情 提交于 2020-12-24 19:54:16
初始化脚本 curl -sL http://wuyou.run/scripts/system/centos7/init.sh | bash -s cdh-us-11 check项目 加入集群前检查: 时间,swap,内核参数是否修改 加入顺序:先 Add hosts to Cloudera Manager ,然后 Add hosts to cluster 磁盘 mkfs.ext4 /dev/sdb mkfs.ext4 /dev/sdc mkfs.ext4 /dev/sdd mkdir /mnt/{sdb,sdc,sdd}/ -p mount /dev/sdb /mnt/sdb mount /dev/sdc /mnt/sdc mount /dev/sdd /mnt/sdd echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled mkdir /{sdb,sdc,sdd,sda4}/dfs/dn -p chown -R hdfs:hadoop {sdb,sdc,sdd,sda4}/ # 保存到 /etc/rc.local 坑 添加datanode节点不要修改默认目录方式,这样方式导致我原来的HDFS数据都不显示了