Hadoop

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

坚强是说给别人听的谎言 提交于 2021-02-05 03:01:07
作者徐蓓,腾讯云容器专家工程师,10年研发经验,7年云计算领域经验。负责腾讯云 TKE 大数据云原生、离在线混部、Serverless 架构与研发。 背景 大数据发展至今,按照 Google 2003年发布的《The Google File System》第一篇论文算起,已走过17个年头。可惜的是 Google 当时并没有开源其技术,“仅仅”是发表了三篇技术论文。所以回头看,只能算是揭开了大数据时代的帷幕。随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放。现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。怎样快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。并且伴随云原生时代到来,云原生天生具有的自动化部署和交付能力也正催化这一过程。本文就主要介绍如何利用 Iceberg [1] 与 Kubernetes 打造新一代云原生数据湖。 何为 Iceberg Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

只愿长相守 提交于 2021-02-05 02:42:45
作者徐蓓,腾讯云容器专家工程师,10年研发经验,7年云计算领域经验。负责腾讯云 TKE 大数据云原生、离在线混部、Serverless 架构与研发。 背景 大数据发展至今,按照 Google 2003年发布的《The Google File System》第一篇论文算起,已走过17个年头。可惜的是 Google 当时并没有开源其技术,“仅仅”是发表了三篇技术论文。所以回头看,只能算是揭开了大数据时代的帷幕。随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放。现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。怎样快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。并且伴随云原生时代到来,云原生天生具有的自动化部署和交付能力也正催化这一过程。本文就主要介绍如何利用 Iceberg [1] 与 Kubernetes 打造新一代云原生数据湖。 何为 Iceberg Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a

Hive number of reducers in group by and count(distinct)

梦想与她 提交于 2021-02-04 21:09:57
问题 I was told that count(distinct ) may result in data skew because only one reducer is used. I made a test using a table with 5 billion data with 2 queries, Query A: select count(distinct columnA) from tableA Query B: select count(columnA) from (select columnA from tableA group by columnA) a Actually, query A takes about 1000-1500 seconds while query B takes 500-900 seconds. The result seems expected. However, I realize that both queries use 370 mappers and 1 reducers and thay have almost the

Hive number of reducers in group by and count(distinct)

老子叫甜甜 提交于 2021-02-04 21:09:17
问题 I was told that count(distinct ) may result in data skew because only one reducer is used. I made a test using a table with 5 billion data with 2 queries, Query A: select count(distinct columnA) from tableA Query B: select count(columnA) from (select columnA from tableA group by columnA) a Actually, query A takes about 1000-1500 seconds while query B takes 500-900 seconds. The result seems expected. However, I realize that both queries use 370 mappers and 1 reducers and thay have almost the

Hive number of reducers in group by and count(distinct)

守給你的承諾、 提交于 2021-02-04 21:09:04
问题 I was told that count(distinct ) may result in data skew because only one reducer is used. I made a test using a table with 5 billion data with 2 queries, Query A: select count(distinct columnA) from tableA Query B: select count(columnA) from (select columnA from tableA group by columnA) a Actually, query A takes about 1000-1500 seconds while query B takes 500-900 seconds. The result seems expected. However, I realize that both queries use 370 mappers and 1 reducers and thay have almost the

华为鲲鹏HCIA认证笔记总结四(复习考点附题库)

China☆狼群 提交于 2021-02-04 17:57:25
道阻且长,行则将至。埋头苦干,不鸣则已,一鸣惊人!加油,骚年! 文章目录 1 参考资料 2 笔记总结 2.1 华为鲲鹏 2.2 TaiShan 服务器 2.3 华为云鲲鹏云服务 2.4 openEuler 2.5 鲲鹏处理器与 X86 处理器的指令差异 2.6 编译型语言 & 解释型语言 2.7 移植选项 2.8 华为鲲鹏代码迁移工具 2.9 容器与虚拟机 2.10 Docker 2.11 TPCC 2.12 BenchmarkSQL 2.13 HiBench 2.14 HPC 性能测试 2.15 性能调优分析工具 2.16 NUMA 2.17 镜像 2.18 系统盘 2.19 弹性公网 IP 2.20 BGP 类型 2.21 编译 2.22 Linux 安装软件 2.23 RPMbuild 2.24 华为云发布的鲲鹏行业解决方案 2.25 思考题 3 题库分享 3.1 资源获取 3.2 模拟考试 4 结尾祝福 1 参考资料   在准备考试过程中,参考了很多资料,非常感谢各位前辈的帮助。整理资料链接如下: 【鲲鹏HCIA考试】错题集(https://blog.csdn.net/qq_44745905/article/details/108725463) 鲲鹏云HCIA知识总结(一)(https://blog.csdn.net/qq_43531669/article/details

如何提高elasticsearch查询的准确度 and operator,minimum_should_match

余生长醉 提交于 2021-02-04 16:33:16
为帖子增加标题字段 POST /forum/article/_bulk { "update": { "_id": "1"} } { "doc" : {"title" : "this is java and elasticsearch blog"} } { "update": { "_id": "2"} } { "doc" : {"title" : "this is java blog"} } { "update": { "_id": "3"} } { "doc" : {"title" : "this is elasticsearch blog"} } { "update": { "_id": "4"} } { "doc" : {"title" : "this is java, elasticsearch, hadoop blog"} } { "update": { "_id": "5"} } { "doc" : {"title" : "this is spark blog"} } 搜索标题中包含java或elasticsearch的blog match query,是负责进行全文检索的。当然,如果要检索的field,是not_analyzed类型的,那么match query也相当于term query。 GET /forum/article/_search { "query":

多租户技术

China☆狼群 提交于 2021-02-04 11:57:17
1 多租户概念 多租户技术( Multi Tenancy Technology )又称多重租赁技术,用于实现如何在多用户的环境下共用相同的系统或程序组件,并且仍可确保各用户间数据的隔离性。 具体的多租户技术有多种,数据库通常有以下三种: 1.1 独立数据库 这是第一种方案,即一个租户一个数据库。这种方案的用户数据隔离级别最高、安全性最好,但成本也高。 优点:为不同的租户提供独立的数据库,有助于简化数据模型的扩展设计,满足不同租户的独特需求;如果出现故障,则恢复数据比较简单。 缺点:增大了数据库的安装数量,随之带来维护成本和购置成本的增加。这种方案与传统的一个客户、一套数据、一套部署类似,差别只在于软件统一部署在运营商那里。如果面对的是银行、医院等要求数据隔离级别非常高的租户,则可以选择这种模式,提高租用的定价。如果定价较低,产品走低价路线,那么这种方案对运营商来说是无法承受的。 1.2 共享数据库,隔离数据架构 这是第二种方案,即多个或所有租户共享Database,但一个Tenant一个Schema。 优点:为安全性要求较高的租户提供了一定程度的逻辑数据隔离,但并不是完全隔离;每个数据库可以支持更多的租户数量。 缺点;如果出现故障,则数据恢复比较困难,因为恢复数据库将涉及其他租户的数据;如果需要跨租户统计数据,则存在一定的困难。 1.3 共享数据库,共享数据架构 这是第三种方案

spark项目实践

回眸只為那壹抹淺笑 提交于 2021-02-04 08:29:34
实践目的 通过操作一个开源例子,学习大数据的架构 及基本的使用,各种概念。不涉及自编码与创新。 环境搭建 需要建立 hadoop,hbase ,spark 等大数据环境 在10.30.2.5上建立六个docker , 分别对应 s141~s146 分别用于装大数据环境,具体操作步骤 参考本人 hadoop-spark https://blog.csdn.net/dualvencsdn/article/details/112007643?spm=1001.2014.3001.5501 habase https://blog.csdn.net/dualvencsdn/article/details/112905925?spm=1001.2014.3001.5501 学会操作hbase https://blog.csdn.net/dualvencsdn/article/details/113309385?spm=1001.2014.3001.5501 flume初步学习与使用 https://blog.csdn.net/qq_1018944104/article/details/85462011 /usr/local/flume/do.sh kafka与zookeeper的使用与编程 https://blog.csdn.net/dualvencsdn/article/details

hadoop组件启动和关闭命令

岁酱吖の 提交于 2021-02-04 07:49:53
一、启动相关组件之前 一般安装完hadoop之后需要格式化一遍hdfs: hdfs namenode -format 然后再进行其他组件的启动,hadoop相关组件都是用位于...hadoop/sbin目录下的脚本启动的, 二、启动组件 一般启动相关的就可以了: # 开启hdfs start -dfs. sh # 开启yarn start -yarn. sh 然后查看进程都开起来了没有,正常是: [root@harry etc]# jps 6531 NodeManager 6264 SecondaryNameNode 6077 DataNode 6670 Jps 5983 NameNode 三、关闭服务 stop-all. sh 来源: oschina 链接: https://my.oschina.net/u/4403012/blog/4000886