HDFS

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

大城市里の小女人 提交于 2020-11-11 19:49:30
背景 大数据发展至今,按照 Google 2003年发布的《The Google File System》第一篇论文算起,已走过17个年头。可惜的是 Google 当时并没有开源其技术,“仅仅”是发表了三篇技术论文。所以回头看,只能算是揭开了大数据时代的帷幕。随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放。现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。怎样快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。并且伴随云原生时代到来,云原生天生具有的自动化部署和交付能力也正催化这一过程。本文就主要介绍如何利用 Iceberg 与 Kubernetes 打造新一代云原生数据湖。 何为 Iceberg Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table. Apache Iceberg 是由

数据仓库之Hive快速入门

与世无争的帅哥 提交于 2020-11-11 19:48:24
数据仓库VS数据库 数据仓库的定义: 数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境 数据仓库VS数据库: 数据库是面向事务的设计,数据仓库是面向主题设计的 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据 数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计 OLTP VS OLAP: 联机事务处理OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易 联机分析处理OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果 常规的数仓架构: 为什么建设数据仓库: 各个业务数据存在不一致,数据关系混乱 业务系统一般针对于OLTP,而数据仓库可以实现OLAP分析 数据仓库是多源的复杂环境,可以对多个业务的数据进行统一分析 数据仓库建设目标: 集成多源数据,数据来源和去向可追溯,梳理血缘关系 减少重复开发,保存通用型中间数据,避免重复计算 屏蔽底层业务逻辑,对外提供一致的、 结构清晰的数据 如何实现: 实现通用型数据ETL工具 根据业务建立合理的数据分层模型 数据仓库分层建设 数仓建设背景: 数据建设刚起步

浅谈字节最新开源联邦机器学习平台Fedlearner

折月煮酒 提交于 2020-11-10 07:41:14
最近联邦机器学习越来越火,字节也正式对外宣讲开源了联邦机器学习平台Fedlearner。这次头条开源的 Fedlearner 与我之前分析过得华为、微众的联邦机器学习平台有什么不同呢?主要体现在以下几个方面: 产品化: Fedlearner 的代码里有大量的js、Html模块,也是第一次让我们可以直观的看到联邦机器学习平台大概是什么样的,如果做成产品需要长成什么样。 业务多样化:之前华为、微众更多地强调联邦机器学习在风控业务的落地。头条开始强调联邦学习在推荐、广告等业务中的落地,并且给了很明确的数据,在某教育业务板块广告投放效果增加209% 可输出性:如果说之前的联邦机器学习平台更多地从理论层面做介绍,这一次字节的Fedlearner强调了可输出性,比如为了保持联邦建模双方的环境一致性,通过K8S的部署模式快速拉起和管理集群。这是为ToB对外输出服务做技术准备 下面分别介绍下Fedlearner在这三方面的一些工作。 Fedlearner产品化工作 以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。 需要有两套协议保证客户的联邦建模,一套是数据一致性问题。比如在纵向联邦学习场景下,用户在页面上点击了某个广告,平台方和广告主各自会捕获一部分日志。如何能实时的保证这两部分捕获的日志的一致性,并且拼接成训练样本,需要一套实时数据样本拼接协议。

centos7搭建hadoop3.*.*系列

生来就可爱ヽ(ⅴ<●) 提交于 2020-11-08 07:37:44
   最近搭建这个hadoop踩过不少坑,先是配置JDK搞错路径(普通用户和root用户下的路径不同),再就是hadoop版本不同导致的启动错误,网上找到的是hadoop2.*.*的版本,但是我安装的hadoop3.*.*的版本,环境配置有部分不同。希望大家不要重蹈覆辙! 下载hadoop安装包 地址: http://hadoop.apache.org/ 安装配置 1.配置主机名:   将文件中原有的主机名删除,添加你自己的主机名,保存并退出。 vi /etc/hostname 2.配置hosts文件:   在文件最后增加机器的IP地址和刚才配好的主机名,保存并退出。 vi /etc/hosts 3.生成SSH密钥:执行以下命令,然后一直回车。来生成SSH密钥。生成的密钥文件会存放在/root/.ssh/目录下。前提是你用的root帐号登录并且生成的ssh密钥。 ssh-keygen 4.配置机器免密登录:执行以下命令、将刚才生成好的SSH密钥发送指定的机器上,来实现机器免密登录。 ssh- copy- id root@主机名 5.上传和解压下载好的Hadoop安装包,上传可以直接从xshell拖进目录 tar -zxvf hadoop-3.1.2.tar.gz(我这里写的是我的包名) 6.配置 hadoop-env.sh 文件:这个文件里写的是hadoop的环境变量

Hadoop3集群部署

冷暖自知 提交于 2020-11-06 09:19:23
环境准备: 准备3台虚拟机(CentOS 7),一台 master,两台 slaver。master 作为NameNode、DataNode、ResourceManager、NodeManager,slave 均作为DataNode、NodeManager。 master:10.0.83.71 slave1: 10.0.83.72 slave2:10.0.83.73 在每台机器上执行: 关闭防火墙: systemctl stop firewalld.service systemctl disable firewalld.service 修改每个ip对应的主机名并修改hosts文件 vi /etc/hosts 10.0.83.71 node1 10.0.83.72 node2 10.0.83.73 node3 设置3台虚拟机互相免密登录 分别在71,72,73上执行:ssh-keygen -t rsa 分别在每台机器上执行copy to其他2个机器地址: ssh-copy-id 10.0.83.71 ssh-copy-id 10.0.83.72 ssh-copy-id 10.0.83.73 创建数据存储和其他需要的目录 mkdir -p /data/hdfs/name mkdir -p /data/hdfs/data mkdir -p /data/hdfs/tmp mkdir -p

大数据-----大数据-机器学习-人工智能

十年热恋 提交于 2020-11-03 05:29:03
1.大数据与机器学习的关系: 大数据领域我们做的是数据的存储和简单的统计计算,机器学习在大数据的应用是为了发现数据的规律或模型,用机器学习算法对数据进行计算的到的模型,从而决定我们的预测与决定的因素(比如在大数据用户画像项目里,生成的特殊用户字段)。 2.大数据在机器学习的应用 目前市场实际开发模式中,应该在大数据哪一个阶段层次应用到机器学习的相关技术呢,我们接下来来说明,首先目前大数据的架构模式列举如下几个 2.1数据采集(ftp、socket)---数据存储(hdfs)---数据清洗(MapReduce)----数据分析(hive)---sqoop导入-----存储(mysql、oracle)---web显示 2.2数据采集(ftp、socket)---数据存储(hdfs)---数据清洗(MapReduce)---列式数据库存储(hbase)-----thrift(协处理器)---web显示 2.3数据采集(ftp、socket)---数据存储(hdfs)---数据清洗(MapReduce)----数据分析(hive)----impala(实时数据分析)---jdbc-----web显示 2.4数据采集(ftp、socket)---数据存储(hdfs)---spark计算-----存储(mysql、oracle)---web显示 整体在开发完成后用分布式任务调度系统

Hadoop生态圈

只谈情不闲聊 提交于 2020-11-01 14:47:37
Hadoop 是什么? Apache 开发的一套分布式系统基础架构 主要解决海量数据存储,和海量数据计算的问题 Hadoop 更广泛的说,就是一个生态圈 Hadoop 发展历史 Gfs-hdfs Map-reduce-MR BigTable-hbase Hadoop 三大发行版本 Apache: 最原始的基础版本,入门方便 Cloudera :大型互联网企业中应用较多 Hortonworks :文档较好 Hadoop 优势 高可靠:底层默认维护多个原数据副本 , 即使 hadoop 在计算或处理某个单元时出现故障,也不会导致数据的丢失 高扩展:通过集群形式处理分配任务数据,可大量扩展集群节点 高效性:在 MapReduce 的思想下, hadoop 是并行工作的,加速任务的处理。 高容错性:能够将自身处理失败的任务重新分配 Hadoop 的组成 Hadoop1.x 辅助工具 common---hdfs 数据存储服务 —mapreduce( 计算 + 资源调度 ) Hadoop2.x 辅助工具 common---hdfs 数据存储服务 —mapreduce( 计算 )—Yarn( 资源调度 ) 1.Hdfs 架构概述 1)Namedode :存储文件的元数据,如文件名,目录结构,文件属性 ( 生成时间,副本数,文件权限 ) ,以及每个文件的块列表和所在的 datanode 2