HDFS

开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

不想你离开。 提交于 2020-03-23 23:03:36
3 月,跳不动了?>>> 目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点,加上项目各成员积极地社区建设,包括技术细节分享、国内社区推广等等,也在逐步地吸引潜在用户的目光。 Apache Iceberg目前看则会显得相对平庸一些,简单说社区关注度暂时比不上delta,功能也不如Hudi丰富,但却是一个野心勃勃的项目,因为它具有高度抽象和非常优雅的设计,为成为一个通用的数据湖方案奠定了良好基础。 很多用户会想,看着三大项目异彩纷呈,到底应该在什么样的场景下,选择合适数据湖方案呢?今天我们就来解构数据湖的核心需求,深度对比三大产品,帮助用户更好地针对自身场景来做数据湖方案选型。 首先,我们来逐一分析为何各技术公司要推出他们的开源数据湖解决方案,他们碰到的问题是什么,提出的方案又是如何解决问题的。我们希望客观地分析业务场景,来理性判断到底哪些功能才是客户的痛点和刚需。 Databricks和Delta

Hadoop集群搭建-04安装配置HDFS

ぃ、小莉子 提交于 2020-03-23 20:28:34
Hadoop集群搭建-05安装配置YARN Hadoop集群搭建-04安装配置HDFS Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hadoop集群搭建-01前期准备 HDFS是配合Hadoop使用的分布式文件系统,分为 namenode: nn1.hadoop nn2.hadoop datanode: s1.hadoop s2.hadoop s3.hadoop (看不明白这5台虚拟机的请看前面 01前期准备 ) 解压配置文件 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh mv /usr/local/hadoop/etc/hadoop /usr/local/hadoop/etc/hadoop_back [hadoop@nn1 hadoop_base_op]$ ./scp_all.sh ../up/hadoop.tar.gz /tmp/ [hadoop@nn1 hadoop_base_op]$ #批量将自定义配置 压缩包解压到/usr/local/hadoop/etc/ #批量检查配置是否正确解压 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh head /usr/local/hadoop/etc/hadoop/hadoop-env.sh [hadoop

HDFS编程

风流意气都作罢 提交于 2020-03-23 12:01:57
HDFS编程主要API Hadoop类 功能 org.apache.hadoop.fs.FileSystem 一个通用文件系统的抽象基类,可以被分布式文件系统继承。所有的可能使用Hadoop文件系统的代码都要使用到这个类。 org.apache.hadoop.fs.FileStatus 客户端可见的文件状态信息。 org.apache.hadoop.fs.FSDataInputStream 文件输入流,用于读取Hadoop文件。 org.apache.hadoop.fs.FSDataOutputStream 文件输出流,用于写Hadoop文件。 org.apache.hadoop.fs.permission.FsPermission 文件或者目录的权限 org.apache.hadoop.conf.Configuration 访问配置项。所有的配置项的值,如果没有专门配置,以core-default.xml为准;否则,以core-site.xml中的配置为准。 对于Hadoop文件系统中的文件的访问是基于 InputStream 和 OutputStream 的流式访问 import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org

HDFS的回收站

a 夏天 提交于 2020-03-23 10:28:56
回收站 (*)默认,HDFS的回收站是关闭 (*)启用回收站:参数---> core-site.xml 添加fs.trash.interval来配置时间阀值,例如: (*)删除文件时,其实是放入回收站/trash (*)回收站里的文件可以快速恢复 hdfs dfs -cp /user/root/.Trash/Current/input/data.txt /input (*)可以设置一个时间阈值,当回收站里文件的存放时间超过返个阈值,就被彻底 删除,并且释放占用的数据块 清空:hdfs dfs -expunge (*)查看回收站 hdfs dfs -lsr /user/root/.Trash/Current 可以看到被删除的目录/文件: 来源: https://www.cnblogs.com/JasonPeng1/p/12550354.html

大的压缩文件对Impala查询性能的影响

不问归期 提交于 2020-03-21 16:58:07
3 月,跳不动了?>>> Hadoop/HDFS/MapReduce/Impala 被设计用于存储和处理大量文件的场景,比如 TB 或者 PB 级别数据量的文件。大量小文件对查询性能有很大的影响,因为 NameNode 要保存大量的 HDFS 文件元数据,一次性查询很多分区或者文件的话,需要获取文件列表并一个个读取文件信息,不仅会对查询性能造成很大的影响,还可能会超过操作系统的文件描述符数量限制而导致查询失败。 因此,这就意味着我们要尽可能让文件保持很大吗?当然不是。大文件对表的性能也会有影响,原因是在大多数情况下, Hadoop 用户会压缩存储在 HDFS 中的数据,这样虽然可以节省磁盘空间,但是如果你有一个大的压缩文件,花费在解压上的时间也会导致查询变慢。 为了证明上面的说法,我在 CDH 环境中做了以下测试: 1、我准备了一个 565M 的普通 Text 格式的文件和一个使用 bzip2 压缩方式压缩的 135M 的文件,文件下载链接: Kaggle’s Flight Delay Dataset 2、我用4个这样的 bzip2 文件创建了一个名为 bzip2_smallfiles_4 的表,用8个这样的文件创建了另一个名为 bzip2_smallfiles_8 的表 3、然后,我还将这个文本文件合并4次,生成一个文本文件,使用 bzip2 对其进行压缩,大小变为大约

大数据相关概念

百般思念 提交于 2020-03-21 16:55:16
概念 数据同步和传输:Sqoop、OGG 分布式计算框架:MapReduce、Spark、Spark Streamning、Flink 数据媒介:Hive、HBase、Kafka 核心:Hadoop(HDFS+MapReduce+YARN) Sqoop Hadoop和RDB传送数据的工具,其实是一个命令行工具(命令->MR程序),完成MySQL、Oracle和HDFS、Hive、HBase之间的导入和导出。 OGG Oracle GoldenGate(OGG)是一种基于日志的结构化数据复制软件,利用抽取进程 (Extract Process)在源端数据库中读取Online Redo Log或者Archive Log,然后进行解析,只提取其中数据的变化信息,比如DML操作——增、删、改操作,将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件 (trail file) 通过 TCP/IP传送到目标系统。 Hadoop Hadoop是一个分布式系统基础架构,充分利用集群的威力进行高速运算和存储,它解決了两大问题:大数据存储、大数据分析。也就是 Hadoop 的两大核心:HDFS 和 MapReduce。 HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统

Flink集群搭建

拟墨画扇 提交于 2020-03-21 03:04:38
3 月,跳不动了?>>> Flink支持多种安装模式。 local(本地)——单机模式,一般不使用 standalone——独立模式,Flink自带集群,开发测试环境使用 yarn——计算资源统一由Hadoop YARN管理,生产环境测试 Standalone模式 步骤 1. 解压flink压缩包到指定目录 2. 配置flink 3. 配置slaves节点 4. 分发flink到各个节点 5. 启动集群 6. 提交WordCount程序测试 7. 查看Flink WebUI 具体操作 1. 上传flink压缩包到指定目录 2. 解压缩flink到 /export/servers 目录 tar -xvzf flink-1.6.0-bin-hadoop26-scala_2.11.tgz -C /export/servers 3. 使用vi修改 conf/flink-conf.yaml # 配置Master的机器名(IP地址) jobmanager.rpc.address: node-1 # 配置每个taskmanager生成的临时文件夹 taskmanager.tmp.dirs: /export/servers/flink-1.6.0/tmp 4. 使用vi修改slaves文件 node-1 node-2 node-3 5. 使用vi修改 /etc/profile 系统环境变量配置文件

开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

送分小仙女□ 提交于 2020-03-21 01:11:07
3 月,跳不动了?>>> 目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点,加上项目各成员积极地社区建设,包括技术细节分享、国内社区推广等等,也在逐步地吸引潜在用户的目光。 Apache Iceberg目前看则会显得相对平庸一些,简单说社区关注度暂时比不上delta,功能也不如Hudi丰富,但却是一个野心勃勃的项目,因为它具有高度抽象和非常优雅的设计,为成为一个通用的数据湖方案奠定了良好基础。 很多用户会想,看着三大项目异彩纷呈,到底应该在什么样的场景下,选择合适数据湖方案呢?今天我们就来解构数据湖的核心需求,深度对比三大产品,帮助用户更好地针对自身场景来做数据湖方案选型。 首先,我们来逐一分析为何各技术公司要推出他们的开源数据湖解决方案,他们碰到的问题是什么,提出的方案又是如何解决问题的。我们希望客观地分析业务场景,来理性判断到底哪些功能才是客户的痛点和刚需。 Databricks和Delta

tachyon与hdfs,以及spark整合

核能气质少年 提交于 2020-03-20 22:13:41
3 月,跳不动了?>>> Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知,Spark 1.4.x和Tachyon 0.6.4版本兼容,而最新版的Tachyon 0.7.1和Spark 1.5.x兼容,目前所用的Spark为1.4.1,tachyon为 0.7.1 tachyon 与 hdfs整合 修改tachyon-env.sh export TACHYON_UNDERFS_ADDRESS=hdfs://master:8020Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data12 上传文件到hdfs hadoop fs -put /home/cluster/data/test/bank/ /data/spark/ hadoop fs -ls /data/spark/bank/Found 3 items-rw-r--r-- 3 wangyue supergroup 4610348 2015-09-11 20:02 /data/spark/bank/bank-full.csv-rw-r--r-- 3 wangyue supergroup 3864 2015-09-11 20

HDFS 和YARN HA 简介

扶醉桌前 提交于 2020-03-20 07:35:09
HDFS: 基础架构 1、NameNode(Master) 1)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。 使用Active NameNode,Standby NameNode 两个节点可以解决单点问题,两个节点通过JounalNode共享状态,通过ZKFC 选举Active ,监控状态,自动备份。 1、Active NameNode 接受client的RPC请求并处理,同时写自己的Editlog和共享存储上的Editlog,接收DataNode的Block report, block location updates和heartbeat。 2、Standby NameNode 同样会接到来自DataNode的Block report, block location updates和heartbeat,同时会从共享存储的Editlog上读取并执行这些log操作,保持自己NameNode中的元数据(Namespcae information + Block locations map)和Active NameNode中的元数据是同步的。所以说Standby模式的NameNode是一个热备(Hot Standby NameNode),一旦切换成Active模式,马上就可以提供NameNode服务。