HDFS | 易学教程

开源数据湖方案选型：Hudi、Delta、Iceberg深度对比

阅读更多关于开源数据湖方案选型：Hudi、Delta、Iceberg深度对比

3 月，跳不动了？>>> 目前市面上流行的三大开源数据湖方案分别为： delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。 Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。很多用户会想，看着三大项目异彩纷呈，到底应该在什么样的场景下，选择合适数据湖方案呢？今天我们就来解构数据湖的核心需求，深度对比三大产品，帮助用户更好地针对自身场景来做数据湖方案选型。首先，我们来逐一分析为何各技术公司要推出他们的开源数据湖解决方案，他们碰到的问题是什么，提出的方案又是如何解决问题的。我们希望客观地分析业务场景，来理性判断到底哪些功能才是客户的痛点和刚需。 Databricks和Delta

Hadoop集群搭建-04安装配置HDFS

阅读更多关于 Hadoop集群搭建-04安装配置HDFS

Hadoop集群搭建-05安装配置YARN Hadoop集群搭建-04安装配置HDFS Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hadoop集群搭建-01前期准备 HDFS是配合Hadoop使用的分布式文件系统，分为 namenode: nn1.hadoop nn2.hadoop datanode: s1.hadoop s2.hadoop s3.hadoop (看不明白这5台虚拟机的请看前面 01前期准备 ) 解压配置文件 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh mv /usr/local/hadoop/etc/hadoop /usr/local/hadoop/etc/hadoop_back [hadoop@nn1 hadoop_base_op]$ ./scp_all.sh ../up/hadoop.tar.gz /tmp/ [hadoop@nn1 hadoop_base_op]$ #批量将自定义配置压缩包解压到/usr/local/hadoop/etc/ #批量检查配置是否正确解压 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh head /usr/local/hadoop/etc/hadoop/hadoop-env.sh [hadoop

HDFS编程

阅读更多关于 HDFS编程

HDFS编程主要API Hadoop类功能 org.apache.hadoop.fs.FileSystem 一个通用文件系统的抽象基类，可以被分布式文件系统继承。所有的可能使用Hadoop文件系统的代码都要使用到这个类。 org.apache.hadoop.fs.FileStatus 客户端可见的文件状态信息。 org.apache.hadoop.fs.FSDataInputStream 文件输入流，用于读取Hadoop文件。 org.apache.hadoop.fs.FSDataOutputStream 文件输出流，用于写Hadoop文件。 org.apache.hadoop.fs.permission.FsPermission 文件或者目录的权限 org.apache.hadoop.conf.Configuration 访问配置项。所有的配置项的值，如果没有专门配置，以core-default.xml为准；否则，以core-site.xml中的配置为准。对于Hadoop文件系统中的文件的访问是基于 InputStream 和 OutputStream 的流式访问 import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org

HDFS的回收站

阅读更多关于 HDFS的回收站

回收站（*）默认，HDFS的回收站是关闭（*）启用回收站：参数---> core-site.xml 添加fs.trash.interval来配置时间阀值，例如：（*）删除文件时，其实是放入回收站/trash （*）回收站里的文件可以快速恢复 hdfs dfs -cp /user/root/.Trash/Current/input/data.txt /input （*）可以设置一个时间阈值，当回收站里文件的存放时间超过返个阈值，就被彻底删除，并且释放占用的数据块清空：hdfs dfs -expunge （*）查看回收站 hdfs dfs -lsr /user/root/.Trash/Current 可以看到被删除的目录/文件：来源： https://www.cnblogs.com/JasonPeng1/p/12550354.html

大的压缩文件对Impala查询性能的影响

阅读更多关于大的压缩文件对Impala查询性能的影响

3 月，跳不动了？>>> Hadoop/HDFS/MapReduce/Impala 被设计用于存储和处理大量文件的场景，比如 TB 或者 PB 级别数据量的文件。大量小文件对查询性能有很大的影响，因为 NameNode 要保存大量的 HDFS 文件元数据，一次性查询很多分区或者文件的话，需要获取文件列表并一个个读取文件信息，不仅会对查询性能造成很大的影响，还可能会超过操作系统的文件描述符数量限制而导致查询失败。因此，这就意味着我们要尽可能让文件保持很大吗？当然不是。大文件对表的性能也会有影响，原因是在大多数情况下， Hadoop 用户会压缩存储在 HDFS 中的数据，这样虽然可以节省磁盘空间，但是如果你有一个大的压缩文件，花费在解压上的时间也会导致查询变慢。为了证明上面的说法，我在 CDH 环境中做了以下测试： 1、我准备了一个 565M 的普通 Text 格式的文件和一个使用 bzip2 压缩方式压缩的 135M 的文件，文件下载链接： Kaggle’s Flight Delay Dataset 2、我用4个这样的 bzip2 文件创建了一个名为 bzip2_smallfiles_4 的表，用8个这样的文件创建了另一个名为 bzip2_smallfiles_8 的表 3、然后，我还将这个文本文件合并4次，生成一个文本文件，使用 bzip2 对其进行压缩，大小变为大约

大数据相关概念

阅读更多关于大数据相关概念

概念数据同步和传输：Sqoop、OGG 分布式计算框架：MapReduce、Spark、Spark Streamning、Flink 数据媒介：Hive、HBase、Kafka 核心：Hadoop（HDFS+MapReduce+YARN） Sqoop Hadoop和RDB传送数据的工具，其实是一个命令行工具（命令->MR程序），完成MySQL、Oracle和HDFS、Hive、HBase之间的导入和导出。 OGG Oracle GoldenGate（OGG）是一种基于日志的结构化数据复制软件，利用抽取进程 (Extract Process)在源端数据库中读取Online Redo Log或者Archive Log，然后进行解析，只提取其中数据的变化信息，比如DML操作——增、删、改操作，将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件 (trail file) 通过 TCP/IP传送到目标系统。 Hadoop Hadoop是一个分布式系统基础架构，充分利用集群的威力进行高速运算和存储，它解決了两大问题：大数据存储、大数据分析。也就是 Hadoop 的两大核心：HDFS 和 MapReduce。 HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统

Flink集群搭建

阅读更多关于 Flink集群搭建

3 月，跳不动了？>>> Flink支持多种安装模式。 local（本地）——单机模式，一般不使用 standalone——独立模式，Flink自带集群，开发测试环境使用 yarn——计算资源统一由Hadoop YARN管理，生产环境测试 Standalone模式步骤 1. 解压flink压缩包到指定目录 2. 配置flink 3. 配置slaves节点 4. 分发flink到各个节点 5. 启动集群 6. 提交WordCount程序测试 7. 查看Flink WebUI 具体操作 1. 上传flink压缩包到指定目录 2. 解压缩flink到 /export/servers 目录 tar -xvzf flink-1.6.0-bin-hadoop26-scala_2.11.tgz -C /export/servers 3. 使用vi修改 conf/flink-conf.yaml # 配置Master的机器名（IP地址） jobmanager.rpc.address: node-1 # 配置每个taskmanager生成的临时文件夹 taskmanager.tmp.dirs: /export/servers/flink-1.6.0/tmp 4. 使用vi修改slaves文件 node-1 node-2 node-3 5. 使用vi修改 /etc/profile 系统环境变量配置文件

开源数据湖方案选型：Hudi、Delta、Iceberg深度对比

阅读更多关于开源数据湖方案选型：Hudi、Delta、Iceberg深度对比

tachyon与hdfs,以及spark整合

阅读更多关于 tachyon与hdfs,以及spark整合

3 月，跳不动了？>>> Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知，Spark 1.4.x和Tachyon 0.6.4版本兼容，而最新版的Tachyon 0.7.1和Spark 1.5.x兼容，目前所用的Spark为1.4.1，tachyon为 0.7.1 tachyon 与 hdfs整合修改tachyon-env.sh export TACHYON_UNDERFS_ADDRESS=hdfs://master:8020Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data12 上传文件到hdfs hadoop fs -put /home/cluster/data/test/bank/ /data/spark/ hadoop fs -ls /data/spark/bank/Found 3 items-rw-r--r-- 3 wangyue supergroup 4610348 2015-09-11 20:02 /data/spark/bank/bank-full.csv-rw-r--r-- 3 wangyue supergroup 3864 2015-09-11 20

HDFS 和YARN HA 简介

阅读更多关于 HDFS 和YARN HA 简介

HDFS：基础架构 1、NameNode（Master） 1)命名空间管理：命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。使用Active NameNode，Standby NameNode 两个节点可以解决单点问题，两个节点通过JounalNode共享状态，通过ZKFC 选举Active ，监控状态，自动备份。 1、Active NameNode 接受client的RPC请求并处理，同时写自己的Editlog和共享存储上的Editlog，接收DataNode的Block report, block location updates和heartbeat。 2、Standby NameNode 同样会接到来自DataNode的Block report, block location updates和heartbeat，同时会从共享存储的Editlog上读取并执行这些log操作，保持自己NameNode中的元数据（Namespcae information + Block locations map）和Active NameNode中的元数据是同步的。所以说Standby模式的NameNode是一个热备（Hot Standby NameNode），一旦切换成Active模式，马上就可以提供NameNode服务。

订阅 HDFS