Hadoop

数禾云上数据湖最佳实践

吃可爱长大的小学妹 提交于 2021-01-21 16:43:59
目录 1. 数禾科技 2. 云上自建CDH 3. 云上混合架构 4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. EMR弹性伸缩设计 4.2.7. 负载均衡管理 4.2.8. OSS桶生命周期管理 4.2.9. 日志管理 4.2.10. 终端权限管理 4.2.11. 组件UI管理 4.2.12. 监控告警管理 4.2.13. 即席查询设计 4.2.14. 集群安全组设计 4.2.15. 数据脱敏设计 4.2.16. YARN队列设计 4.3. 数据湖EMR治理 4.3.1. 调整EMR预伸缩时间 4.3.2. 更改EMR弹性伸缩策略 4.3.3. 优化EMR云盘空间 4.3.4. EMR机器组的选择 4.3.5. EMR成本控制 4.3.6. 购买RI预留抵扣券 4.3.7. 弹性保障 4.4. 数据湖OSS治理 4.4.1. 数仓ODS多版本桶治理 4.4.2. 数仓日志桶治理 4.4.3. 数仓桶和集市桶治理 4.4.4. 监控桶内对象 5. 阿里云第二代数据湖 5.1. 阿里云数据湖构建 5.2. 阿里云数据湖解决方案 1.数禾科技 数禾科技成立于2015年8月

hbase 安装

谁说胖子不能爱 提交于 2021-01-21 12:46:32
1首先我们去官网下载hbase https://hbase.apache.org/book.html#quickstart_fully_distributed 点击它下载就可以了。 2 上传hbase 下面我们用winSCP或者mobaxterm把hadoop传输到一台虚拟机上的/usr/local/目录下,用软件连接后,选到/usr/local/目录拖进去就可以了 3 解压hadoop并配置环境变量 切换到/usr/local/目录下,执行命令 tar -zxvf hbase-2.0.5-bin.tar.gz 解压完成后,配置环境变量 vi /etc/profile 在末尾加入以下内容 export HBASE_HOME=/usr/local/hbase-2.0.5 export PATH=$PATH:$HBASE_HOME/bin:/$HBASE_HOME/sbin 记得执行 source /etc/profile 使环境变量生效 4修改hadoop中的一系列配置文件 执行命令 cd /usr/local/hbase-2.0.5/conf/ 切换到配置文件目录 4.1配置hbase-env.sh文件 执行命令vi hbase-env.sh 修改以下内容,并取消原文注释(#) export JAVA_HOME=/usr/local/java/jdk1.8.0_211 export

Hadoop on Windows - “Error JAVA_HOME is incorrectly set.”

你说的曾经没有我的故事 提交于 2021-01-21 07:11:07
问题 I'm trying to get Hadoop running 'Local Mode' on my Windows machine. I've been using this guide: http://hadoop.apache.org/docs/r1.2.1/single_node_setup.html When I run the command: bin/hadoop, I get the following error message: Error: JAVA_HOME is incorrectly set. Please update C:...\hadoop-2.7.1\conf\hadoop-env.cmd Inside hadoop-env.cmd , I have the line: set JAVA_HOME=%JAVA_HOME% When I type echo %JAVA_HOME% at the command line I get: C:\Java\jdk1.0.8_51 Even if I change the line in hadoop

极简化ES数据同步,终于从繁琐重复的代码里脱身了

社会主义新天地 提交于 2021-01-20 21:02:51
一、背景 Elasticsearch是最近几年非常热门的分布式搜索和数据分析引擎,携程内部不仅使用ES实现了大规模的日志平台,也广泛使用ES实现了各个业务场景的搜索、推荐等功能。 本文聚焦在业务搜索的场景分享了我们在做数据同步方面的思考和实践,希望能对大家有所启发。 二、现状调研 数据同步是个很麻烦的事情,在各种论坛、分享中被大家反复讨论。 我们的需求大致包括全量、增量地从Hive、MySQL、Soa服务、Mq等不同类型的数据源获取数据,部分数据还需要进行一定的计算或者转换,然后近实时地同步到ES中,以被用户搜索到。 为了讨论方便,假定本文的场景是文章搜索的场景: 索引内容为文章,主要的信息保存在article表里; 每个文章关联了tag,保存在article_tag表里; tag表里的tagName也需要进入ES索引,以便使用标签名字搜索文章。 在以前同步这样的数据进入ES,单条文章的数据组装伪代码如下: List<Long> tagIds = articleTagDao.query("select tagId from article_tags where articleId=?", articleId); List<TagPojo> tags =tagDao.query("select id, name from tags whereid in (?)");

大数据计算系统学习笔记

倾然丶 夕夏残阳落幕 提交于 2021-01-20 17:37:17
1.大数据计算体系可归纳三个基本层次: 数据应用系统,数据处理系统,数据存储系统 2.计算的总体架构 HDFS(Hadoop 分布式文件系统) (1)设计思想:分而治之,将大文件大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 (2)首先,它是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件。然后,它是分布式的,又很多服务器联合起来实现其功能,集群中的服务器有各自的角色。有namenode和datanode两部分,有点类似索引结构,并采用备份的方式,例如第二namenode和b1出现3次。 数据处理系统的比较 主要看mapreduce和spark的两个极端,包括时延和硬件的需求。 mapreduce计算模型 3.计算模型和计算架构 来源: oschina 链接: https://my.oschina.net/u/4255691/blog/4915296

MySQL海量运维管理如何保障京东大促?

纵饮孤独 提交于 2021-01-19 16:27:30
​本文根据高新刚老师在〖2020 Gdevops全球敏捷运维峰会〗现场演讲内容整理而成。 (点击文末“阅读原文”可获取完整PPT) 讲师介绍 高新刚, 京东数科数据库团队负责人,负责京东数科数据库平台的管理维护工作,带领团队平稳护航多次 6·18、11·11的大促活动;对数据库多业务场景架构设计,高并发解决方案,数据生态管控有着丰富的实践经验;对数据库库中间件、分布式事务数据库和自动化智能化运维平台设计开发有着深入的实践和探索;长期专注于数据库产品化输出和国产数据库的探索研究。 当我们遇到海量这个词的时候,大家第一时间会想到和数据库相关的哪些内容?比如海量的数据量、大规模的数据库的节点数、高并发的业务访问。海量的数据带来的是存储和弹性扩展的问题,大规模的数据库节点给我们带来的是批量运维的困扰,高并发访问带来的是性能的问题。 所以我认为,解决大部分的海量数据的问题,一般有三种通用的方法: 第一、我们要有一个数据的全生命周期的管理体系,从数据库的写入到数据库的存储,到TP的查询,AP的查询,到后面的一些冷热数据分离和大数据实时或异步抽取,我们要有一系列的管控工具帮助我们实现高效的解决方案; 第二、我们要有一个非常稳定、平稳高效的架构体系,也就是说不管你怎么去做弹性的缩扩容,不管你怎么去做数据的搬迁,也都是在这一个相对固定的TP和AP的架构框架下面去运行; 第三

重磅消息:Elastic 公司即将修改 ElasticSearch 的开源许可证

落花浮王杯 提交于 2021-01-19 15:59:58
1月15日, ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-licensed 源码协议修改成 SSPL(Server Side Public License、服务器端公共许可证)和 Elastic License 双重协议!下面是 Shay Banon 修改 Elasticsearch 和 Kibana 开源协议的全文翻译。 注:下面的我们是指 Elastic 公司(或 Shay Banon) 我们正在将 ElasticSearch 和 Kibana 源代码的 Apache 2.0 许可证修改为服务器端公共许可(SSPL)和 Elastic License 双重许可,并且让用户可以选择申请哪个许可。此许可证变更确保了我们的社区和客户可以自由开放地代码进行使用、修改、重新分发和协作。它还通过限制云服务提供商提供 Elasticsearch和 Kibana 服务来保护我们在开发免费开放产品上的持续投资。这个修改将适用于这两个产品的所有维护分支,并将在即将发布的 7.11 版本之前发生。我们的发行版将继续使用过去三年用的 Elastic License。 源代码许可的这种改变对绝大多数免费使用我们默认发行版的社区用户、Elastic

hive beeline ClassNotFoundException

[亡魂溺海] 提交于 2021-01-17 16:51:25
异常现象:使用beeline 或者jdbc 连接hive 执行 create table 异常为 ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat 使用hive client可以正常执行crete table 异常分析: beeline 是通过hiveserver2 服务连接的hive,检查hiveserver2所在服务器jar包是否存在 解决方案: 1、将jar拷贝到hive/lib/ 2、修改hive-env.sh ,将jar加入 例如: export HIVE_AUX_JARS_PATH=/home/hive/lib/json-serde-1.3.7-jar-with-dependencies.jar,/home/hive/lib/hudi-hive-bundle-0.6.0-incubating.jar 3、 重启hiveserver2服务 /home/hive/bin/hiveserver2 --hiveconf hive.server2.thrift.port=10000 & 来源: oschina 链接: https://my.oschina.net/u/4343937/blog/4907167

浅淡 Apache Kylin 与 ClickHouse 的对比

不问归期 提交于 2021-01-16 13:27:49
作者简介 周耀,Kyligence 解决方案架构师,Apache Kylin、Apache Superset Contributor。 Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎;Kylin 最初由 eBay 中国研发中心开发,2014 年开源并贡献给 Apache 软件基金会,凭借着亚秒级查询的能力和超高的并发查询能力,被许多大厂所采用,包括美团,滴滴,携程,贝壳找房,腾讯,58同城等; OLAP 领域这两年炙手可热的 ClickHouse,由俄罗斯搜索巨头 Yandex 开发,于2016年开源,典型用户包括字节跳动、新浪、腾讯等知名企业。 这两种 OLAP 引擎有什么差异,各自有什么优势,如何选择 ? 本文将尝试从技术原理、存储结构、优化方法和优势场景等方面,对比这两种 OLAP 引擎, 为大家的技术选型提供一些参考。 01 技术原理 技术原理方面,我们主要从 架构 和 生态 两方面做个比较。 1.1 技术架构 Kylin 是基于 Hadoop 的 MOLAP (Multi-dimensional OLAP) 技术,核心技术是 OLAP Cube ;与传统 MOLAP 技术不同,Kylin 运行在 Hadoop 这个功能强大、扩展性强的平台上,从而可以支持海量 (TB到PB) 的数据;它将预计算(通过 MapReduce 或

秀出天际!腾讯T4梳理的Java核心宝典(框架+原理+笔记+导图)

北战南征 提交于 2021-01-14 10:58:51
Java语言今年已经25岁了,仍常年稳坐各大编程语言榜单前列,一直是大多数开发者心中最流行的编程语言。 Java工程师的就业面广、薪资高,这得益于 Java 语言优良的关键特性。现在越来越多的人仍旧不断地加入到学习 Java 的队伍中来,小编在此就给大家带来一份腾讯T4大佬精心整理的Java核心宝典,来帮助大家学习提升自己! 下面我们来看看这份腾讯T4大佬整理的Java核心宝典: 本文内容分为三部分 第一部分: JavaSE部分,主要讲Java基础的知识(小白看过来),觉得自己基础不是很好的朋友也看看用作参考,查漏补缺 第二部分: 框架部分,主要讲解面试中常见的微服务、网络编程、分布式存储和分布式计算等必备知识点。 第三部分: 原理部分,主要讲解JVM原理、多线程、数据结构和算法、分布式缓存、设计模式等面试必备知识点。 JavaSE部分 目录 限于平台篇幅原因,更多内容展示不了,感兴趣的朋友帮忙帮忙一键三连后,见下图加小助理VX(gyhycx7980)即可免费领取到! 内容 第 2 章 开发环境搭建 第 5 章 Java编码规范 第 11 章 面向对象基础 第 20 章 对象容器—集合 第 27 章 注解 第 29 章 项目实战 限于平台篇幅原因,更多内容展示不了,感兴趣的朋友帮忙帮忙一键三连后,见下图加小助理VX(gyhycx7980)即可免费领取到! 框架部分 目录