HDFS | 易学教程

Hadoop集群启动

阅读更多关于 Hadoop集群启动

1、初始化集群要启动 Hadoop集群，需要启动HDFS和YARN两个集群注意：首次启动 HDFS时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的HDFS在物理上还是不存在的命令： hdfs namenode -format或hadoop namenode -format 2、启动集群 1）单个节点逐个启动在主节点上使用以下命令启动 HDFS NameNode: Hadoop-daemon.sh start namenode 在每个从节点上使用以下命令启动 HDFS DataNode： Hadoop-daemon.sh start datanode 在主节点上使用以下命令启动 YARN ResourceManager： Yarn-daemon.sh start resourcemanager 在每个从节点上使用以下命令启动 YARN nodemanager： Yarn-daemon.sh start nodemanager 以上脚本位于 hadoop-2.7.6/sbin目录下，若想停止只需把命令中start改为stop 即可 2）脚本一键启动如果配置了 etc/hadoop/slaves和ssh免密登陆，则可以实用程序脚本启动所有Hadoop两个集群的相关进程，在主节点上所设定的机器上执行 hdfs：hadoop-2.7.6/sbin/

Hadoop 启动/停止集群和节点的命令

阅读更多关于 Hadoop 启动/停止集群和节点的命令

集群启动/停止Hadoop集群：start-all.sh stop-all.sh 1) 启动NameNode, DataNode 2) 启动JournalNode, JournalNode在hdfs-site.xml中指定edits log存储的位置，主备NameNode共享数据，方便同步 3) 启动DFSZKFailoverController, HA会启用ZooKeeper Failover Controller 4) 启动YARN守护进程ResourceManager, NodeManager 启动/停止HDFS集群：start-dfs.sh stop-dfs.sh 1) 启动NameNode, DataNode 2) 启动JournalNode, JournalNode在hdfs-site.xml中指定edits log存储的位置，主备NameNode共享数据，方便同步 3) 启动DFSZKFailoverController, HA会启用ZooKeeper Failover Controller 启动/停止YARN集群：start-yarn.sh stop-yarn.sh 据说如果ResourceManager和NameNode不在同一台机器上，那NameNode上无法直接使用start-yarn.sh启动ResourceManager，但NodeManager可以启动

Hadoop启动脚本分析

阅读更多关于 Hadoop启动脚本分析

1 基本概述 Hadoop的命令位于${HADOOP_HOME}/bin、${HADOOP_HOME}/sbin、${HADOOP_HOME}/libexec下面。包含了Linux的shell脚本和windows的批处理文件。本文主要解析linux下的shell脚本。 2 脚本详解 2.1 start-all.sh 要启动 Hadoop的各节点和其他服务，这是一个绕不开的启动脚本，该脚本位于${HADOOP_HOME}/sbin下。不过在Hadoop的2.x版本中，Hadoop官方已经宣布被弃用了。接下来，就详细地分析一下该脚本是如何工作的： 1、首先脚本开头有一段注释： # Start all hadoop daemons. Run this on master node. 中文意思是：启动所有的进程（也就是各节点），在管理节点(也就是namenode-名称节点)上运行该脚本。 2、如果是2.x版本会有 echo "This script is Deprecated. Instead usestart-dfs.sh and start-yarn.sh" 的提示，意思该脚本已经过时，该脚本已经被start-dfs.sh和 start-yarn.sh替代使用。 3、 bin=`dirname"${BASH_SOURCE-$0}"` ,提取start-all.sh的所在的绝对路径。 4

How to find optimal number of mappers when running Sqoop import and export?

阅读更多关于 How to find optimal number of mappers when running Sqoop import and export?

问题 I'm using Sqoop version 1.4.2 and Oracle database. When running Sqoop command. For example like this: ./sqoop import \ --fs <name node> \ --jt <job tracker> \ --connect <JDBC string> \ --username <user> --password <password> \ --table <table> --split-by <cool column> \ --target-dir <where> \ --verbose --m 2 We can specify --m - how many parallel tasks do we want Sqoop to run (also they might be accessing Database at same time). Same option is available for ./sqoop export <...> Is there some

Spark Streaming

阅读更多关于 Spark Streaming

Spark Streaming 一、介绍 Spark Streaming 是 Spark 核心 API 的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括kafka 、 flume 、 twitter 等。 Spark 的各个子框架核心都是 Spark Core 。 Spark Streaming 内部处理机制是：接受实时流的数据，并根据一定的时间间隔拆分成一批批的数据，然后通过 Spark Engine 处理这批数据，最终得到处理后的一批批结果数据。对应的批数据，在Spark 内核对应一个 RDD 实例，因此，对应流数据的 DStream 可以看成是一组 RDDs, 即 RDD 的一个序列。 Spark Streaming 的基本原理是将输入数据流以时间片（秒级）为单位进行拆分，然后以类似批处理的方式处理每个时间片数据，基本原理图如下：首先， Spark Streaming 把实时输入数据流以时间片Δ t （如 1 秒）为单位切分成块。 Spark Streaming 会把每块数据作为一个 RDD ，并使用 RDD 操作处理每一小块数据。每个块都会生成一个 Spark Job 处理，最终结果也返回多块。二、容错 DStream 基于 RDD 组成， RDD 的容错性依旧有效

Kylin 大数据下的OLAP解决方案和行业典型应用

阅读更多关于 Kylin 大数据下的OLAP解决方案和行业典型应用

最近工作中应用到了 Kylin，因此调研了 Kylin的原理和行业应用。本文参考了官网和众多其他公司中 Kylin的应用案例，文末给出了出处，希望对大家有帮助。 Apache Kylin的原理和技术架构 Apache Kylin 从数据仓库中最常用的Hive中读取源数据，使用 MapReduce作为Cube构建的引擎，并把预计算结果保存在HBase中，对外暴露Rest API/JDBC/ODBC的查询接口。 Apache Kylin系统主要可以分为在线查询和离线构建两部分，具体架构图如下： Apache Kylin在百度地图的实践对于 Apache Kylin 在实际生产环境中的应用，在国内，百度地图数据智能组是最早的一批实践者之一。目前，百度地图大数据 OLAP 多维分析平台承载百度地图内部多个基于 Apache Kylin 引擎的亿级多维分析查询项目，共计约 80 个 cube，平均半年时间的历史数据，共计约 50 亿行的源数据规模，单表最大数据量为 20 亿 + 条源数据，满足大时间区间、复杂条件过滤、多维汇总聚合的单条 SQL 查询毫秒级响应，较为高效地解决了亿级大数据交互查询的性能需求。 Kylin 有效解决的痛点问题：痛点一：百亿级海量数据多维指标动态计算耗时问题，Apache Kylin 通过预计算生成 Cube 结果数据集并存储到 HBase 的方式解决。

bilibili大数据一面问题梳理

阅读更多关于 bilibili大数据一面问题梳理

Blibli一面 1：kfk 整体架构的三个概念（名词） 2：kfk broker里的名词 3：kfk 分区一个消费的慢，一个消费的快，这是什么原因，怎么分析呢 4：kfk的分区副本follower同步leader流程说明下 5：查看磁盘、网络IO，顺序读写、随机读写的方法 6：kfk 某主题10个分区，消费者组有11个消费者线程，那么第十一个线程会干什么 7：zero copy原理描述下 8：zero copy生效的场景是什么,kfk 生产进来一大批数据、今天不消费，明天消费，那么会用到zero copy吗 9：kfk map file的配置 10：kfk启动时加载的是什么文件 11：ISR列表缺失问题处理方法 12：内核级调优用过哪些？ 13：hadoop HDFS 的组件罗列下 14：zkfc的作用 15：CAP理论描述下 16：journeyNode的作用 17：NN HA failOver流程概述下 18：HBASE、Kfk的CLOSE_WAIT现象有哪些 19：TCP、三次握手四次挥手 20：如何查看一个broker的流量数据流出？消费、生产端ip信息如何获取？本文分享自微信公众号 - 小晨说数据（flink-spark）。如有侵权，请联系 support@oschina.cn 删除。本文参与“ OSC源创计划 ”，欢迎正在阅读的你也加入，一起分享。来源：

Spark学习之Spark Streaming

阅读更多关于 Spark学习之Spark Streaming

一、简介　　许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用，还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。　　和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流（discretized stream）作为抽象表示，叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列（因此得名“离散化”）。DStream 可以从各种输入源创建，比如 Flume、Kafka 或者 HDFS。创建出来的 DStream 支持两种操作，一种是转化操作（transformation），会生成一个新的DStream，另一种是输出操作（output operation），可以把数据写入外部系统中。DStream提供了许多与 RDD 所支持的操作相类似的操作支持，还增加了与时间相关的新操作，比如滑动窗口。　　和批处理程序不同，Spark Streaming 应用需要进行额外配置来保证 24/7 不间断工作。Spark Streaming 的检查点

Flink DataStream API编程指南

阅读更多关于 Flink DataStream API编程指南

点击上方“蓝字”关注我们 Flink DataStream API主要分为三个部分，分别为Source、Transformation以及Sink，其中Source是数据源，Flink内置了很多数据源，比如最常用的Kafka。Transformation是具体的转换操作，主要是用户定义的处理数据的逻辑，比如Map，FlatMap等。Sink(数据汇)是数据的输出，可以把处理之后的数据输出到存储设备上，Flink内置了许多的Sink，比如Kafka，HDFS等。另外除了Flink内置的Source和Sink外，用户可以实现自定义的Source与Sink。考虑到内置的Source与Sink使用起来比较简单且方便，所以，关于内置的Source与Sink的使用方式不在本文的讨论范围之内，本文会先从自定义Source开始说起，然后详细描述一些常见算子的使用方式，最后会实现一个自定义的Sink。数据源 Flink内部实现了比较常用的数据源，比如基于文件的，基于Socket的，基于集合的等等，如果这些都不能满足需求，用户可以自定义数据源，下面将会以MySQL为例，实现一个自定义的数据源。本文的所有操作将使用该数据源，具体代码如下： /** * @Created with IntelliJ IDEA. * @author : jmx * @Date : 2020/4/14 * @Time : 17

大数据节点轮换

阅读更多关于大数据节点轮换

初始化脚本 curl -sL http://wuyou.run/scripts/system/centos7/init.sh | bash -s cdh-us-11 check项目加入集群前检查: 时间，swap，内核参数是否修改加入顺序：先 Add hosts to Cloudera Manager ,然后 Add hosts to cluster 磁盘 mkfs.ext4 /dev/sdb mkfs.ext4 /dev/sdc mkfs.ext4 /dev/sdd mkdir /mnt/{sdb,sdc,sdd}/ -p mount /dev/sdb /mnt/sdb mount /dev/sdc /mnt/sdc mount /dev/sdd /mnt/sdd echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled mkdir /{sdb,sdc,sdd,sda4}/dfs/dn -p chown -R hdfs:hadoop {sdb,sdc,sdd,sda4}/ # 保存到 /etc/rc.local 坑添加datanode节点不要修改默认目录方式，这样方式导致我原来的HDFS数据都不显示了

订阅 HDFS