Hadoop

Kafka基本原理详解(超详细!)

安稳与你 提交于 2020-10-20 04:52:27
目录 一、概念理解 (1)产生背景 (2)Kafka的特性 (3)Kafka场景应用 (4)Kafka一些重要设计思想 二、消息队列通信的模式 (1)点对点模式 (2)发布订阅模式 三、Kafka的架构原理 (1)基础架构与名词解释 (2)工作流程分析 (1)发送数据 (2)保存数据 (1)Partition 结构 (2)Message结构 (3)存储策略 (3)消费数据 一、概念理解 Kafka 是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。 (1)产生背景 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 如何收集这些巨大的信息 如何分析它 如何及时做到如上两点 以上几个挑战形成了一个业务需求模型,即生产者生产(produce)各种信息,消费者消费(consume)(处理分析)这些信息,而在生产者与消费者之间

hive-etl开发模板

本秂侑毒 提交于 2020-10-19 10:36:10
hive-etl开发模板 #!/bin/bash . /home/anjianbing/soft/functions/wait4FlagFile.sh # =========================================================================== # 程序名称: # 功能描述: 城市每日完成订单数 # 输入参数: 运行日期 # 目标表名: app.app_order_city_d # 数据源表: dw.dw_order # 创建人: 安坚兵 # 创建日期: 2015-12-21 # 版本说明: v1.0 # 代码审核: # 修改人名: # 修改日期: # 修改原因: # 修改列表: # =========================================================================== ### 1.参数加载 exe_hive="hive" if [ $# -eq 1 ] then day_01=`date --date="${1}" +%Y-%m-%d` else day_01=`date -d'-1 day' +%Y-%m-%d` fi syear=`date --date=$day_01 +%Y` smonth=`date --date=$day_01 +%m`

廖雪峰大数据团队研发的"开车宝典"再次曝光,手慢删!

心不动则不痛 提交于 2020-10-18 15:30:43
想什么呢!是廖雪峰老师送福利! 众所周知,大数据改变了我们的生产生活,目前已被广泛应用于电商、交通、工业、金融、政务、医疗等行业,而大数据工程师也成为各行业炙手可热的岗位 。 但同样地大数据工程师技能要求也不低,不仅要熟练 Hadoop、Presto 及 Spark、Storm 等核心框架,还要会搭建系统架构,解决实际业务问题等。但不少初入大数据的人往往摸不着头脑,对 Spark、Flume、Hbase、Kafka 等框架底层源码更是一知半解,更不要说提升系统性开发能力,成为精通的高手了。 因此,今天给大家推荐一个 免费 福利—— 廖雪峰 最新研磨的 实战宝典 《 如何将大数据开发做到优秀 》 首次开放! 内容出自开课吧 vip 课程 “大数据高级开发实战班” ,为帮助大家特殊时期职场走得更加顺畅,现决定将这套价值 788元 的体系化学习宝典免费送给粉丝朋友。 如果你是刚转行大数据不久的 Java、PHP 等程序员或 入行新人 ,这套学习宝典能帮你迅速摆脱工作困扰,巩固掌握优秀工程师的必会技能: 缺乏工作经验,想短时期内接触学习大数据开发项目; 接触不到核心技术,不懂底层源码,不会搭建系统架构,提升太难; 业务逻辑欠缺,想丰富实战经验,进大厂冲击高薪。 一、高薪大数据工程师必备——实战项目经验 本部分选取 当下各企业应用最广的 项目 ,基于 大厂脱敏数据 ,以 Spark

Hadoop2.7.3在centos7上的单机版安装部署

一个人想着一个人 提交于 2020-10-18 10:52:36
1、使用到的工具版本说明: centos版本:CentOS-7.4-x86_64-DVD-1708.iso JDK版本:jdk-8u231-linux-x64.tar.gz Hadoop版本:hadoop-2.7.3.tar.gz https://archive.apache.org/dist/hadoop/common/ ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201017131939971.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l0YW5nZGlnbA==,size_16,color_FFFFFF,t_70#pic_center) 2、环境准备 2.1 安装centos 参考: 在VirtualBox中安装CentOS7详解(Mac版) 2.2 关闭防火墙 # 停止firewall systemctl stop firewalld.service # 禁止firewall开机启动 systemctl disable firewalld.service 2.3 配置SSH免密码登录 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

在 ai-bigdata SIG 的贼船上痛并快乐着

拟墨画扇 提交于 2020-10-16 12:40:57
记得在本科毕业的时候,人工智能和大数据才刚刚火起来。 我在大学的时候选修过人工智能,但半年的课程,又是选修,你懂的~~最后只接触了一些分类、预测算法的皮毛,也没有项目实践。 所以毕业的时候觉得人工智能、大数据这俩东西很神秘,猜不透。 工作后我依然保持浓厚的兴趣,经常自己看一些相关书籍关注一些技术前沿,但毕竟每天要完成工作,并且没有人带领,也没有人交流,两年下来感觉还是很虚,我决定必须改变这种现状。 非常偶然的机会我发现 openEuler 上有个 ai/bigdata 的特别兴趣组(SIG),说起来真的很巧合,当时不知道从哪看到 openEuler 的网站。 浏览时看到了邮件列表,点击后填入邮箱然后回复了确认,就没有在意了。 后来整理邮件时发现了很多大数据和人工智能方面的讨论,比如 Spark、TensorFlow 的安装,hadoop 单机部署和集群部署方式,大数据和人工智能的发展趋势分享,hadoop 在 aarch64(那时候还不知道是啥)上的支持情况,Flink 在 openEuler 上的支持情况(当时以为所有的 OS 都一样)等。 这些我有时间自己阅读下,觉得收获还挺多,尤其是一些安装、使用问题正好是我在部署时也遇到了的。除了这些,也有例会链接,我偶尔上去听一下,看看这些领域专家们都在干什么。 自己虽然有兴趣,一直关注相关资讯,但毕竟纸上得来终觉浅

让美团、京东、搜狐都说好的数据仓库,牛在哪?

北城以北 提交于 2020-10-16 04:14:09
守着金山讨饭吃,乍听有些不可思议,但不少企业正遭遇这样的窘况。 数据被誉为“新石油”,如何管理并洞悉数据的价值,是企业未来发展的核心竞争力。进入大数据时代,数据规模与日俱增,如果没有一款性能强大的数据仓库,企业不仅难以抵挡海量数据带来的各种挑战,还会在瞬息万变的市场环境中迷失方向。 而有些企业在面对海量数据时却能从容应对,他们又有哪些制胜法宝?今天,就让我们一起回顾下,美团、京东、搜狐等企业,如何应对大数据带来的各种挑战。 美团——节约计算资源,提升开发效率 作为国内领先的生活服务电子商务平台,美团每时每刻都需要处理大量的订单及商品信息。而在2017年年底,美团已经维护了Kylin和Druid两个开源系统,Kylin主要满足离线固化多维分析的需求,Druid主要满足实时多维分析的需求。 但由于Kylin和Druid都是基于预计算的系统,没有保留明细数据,无法进行明细查询。为此,美团于2018年初,开始调研当时开源的ROLAP系统,并进行落地。 美团当初主要调研了SQL on Hadoop、TiDB、SnappyData、ClickHouse和Doris等系统,这些都是优秀的开源系统,且都有其实用场景,选型主要从功能、架构、性能、易用性、运维成本等几个维度来分析。 为什么没有选择这些系统的简要说明 通过综合对比,美团技术团队最终选择 Apache Doris(Incubating)