Kafka

微服务之分布式文件系统

人盡茶涼 提交于 2021-01-30 10:16:57
背景 传统Web应用中所有的功能部署在一起,图片、文件也在一台服务器;应用微服务架构后,服务之间的图片共享通过FTP+Nginx静态资源的方式进行访问,文件共享通过nfs磁盘挂载的方式进行访问,无论是单体架构还是微服务架构下的应用都存在大量图片、文件读写操作,但是昂贵的磁盘空间、高性能服务器无疑增加了运营成本。 所以我们希望文件服务也能微服务、独立化,这样既能降低运营成本,又能对文件进行统一的管理和维护,所以搭建独立的文件服务是解决文件共享、释放业务系统压力的最优选择。于是便诞生了随行付分布式文件系统简称OSS(Object Storage Service),提供的海量、安全、低成本、高可靠的云存储服务。它具有与平台无关的RESTful API接口,能够提供数据可靠性和服务可用性。 文件服务的意义 随着互联网图片、视频时代的到来,对文件的处理成为各个业务系统面临的巨大挑战,没有文件服务器之前,系统之间处理图片的方式大相径庭:FTP、NFS、数据库存储等等,虽然都实现了对文件的存储、访问,但是系统之间很难达到文件共享,所以文件服务可以形成一个统一的访问标准,降低各个系统之间的互相依赖,提高开发效率、释放业务系统压力,所以文件服务的意义如下: 降低WEB服务器压力 分担业务服务器的I0、流程负载,将耗费资源的文件访问、读写操作分离到文件服务器,可以提高服务器的性能和稳定性

Apache Flink 在实时金融数据湖的应用

扶醉桌前 提交于 2021-01-30 09:41:56
摘要: 本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融数据湖在中原 银行的应用。主要内容包括: 背景概况 实时金融数据湖体系架构 场景实践 Tips: 点击文末「 阅读原文 」即可下载作者分享 PPT 并回顾原版分享视频~ 一、背景概况 首先简单介绍一下中原银行,它位于河南省郑州市,是河南省唯一的省级法人银行,是河南省最大的城市商业银行。2017 年 7 月 19 日在香港成功上市。中原银行在成立之初就将科技利行和科技兴行作为我行的战略,我行立志要成为一个科技银行和数据银行。我们一直在从事技术,也崇尚技术,希望用技术的手段来解决现在的问题。 本文将从 实时金融数据湖的建设背景 、体系架构、场景实践三个方面分享。 1.数据湖诞生的业务背景 ■ 决策方式变迁 下面来看一下背景概况,我们认为现在的银行的决策方式正面临巨大的变迁。 首先,传统的银行数据分析主要集中在银行的收入、成本、利润的分配和应对监管部门的监管。这些数据分析非常复杂,但也存在一定的规律,它属于财务数据分析。随着互联网金融的不断发展,银行的业务不断受到挤压,如果仍然将数据分析集中在收入、成本、分配及监管方面,已经不能满足业务的需求。如今,更好的了解客户,收集大量的数据,做更多有针对性的营销和决策分析是当务之急。因此,现在银行的业务分析决策由传统的财务分析逐步转向面向 KYC 的分析。 其次

Apache Flink 在实时金融数据湖的应用

*爱你&永不变心* 提交于 2021-01-30 09:40:06
摘要: 本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融数据湖在中原 银行的应用。主要内容包括: 背景概况 实时金融数据湖体系架构 场景实践 Tips: 点击文末「 阅读原文 」即可下载作者分享 PPT 并回顾原版分享视频~ 一、背景概况 首先简单介绍一下中原银行,它位于河南省郑州市,是河南省唯一的省级法人银行,是河南省最大的城市商业银行。2017 年 7 月 19 日在香港成功上市。中原银行在成立之初就将科技利行和科技兴行作为我行的战略,我行立志要成为一个科技银行和数据银行。我们一直在从事技术,也崇尚技术,希望用技术的手段来解决现在的问题。 本文将从 实时金融数据湖的建设背景 、体系架构、场景实践三个方面分享。 1.数据湖诞生的业务背景 ■ 决策方式变迁 下面来看一下背景概况,我们认为现在的银行的决策方式正面临巨大的变迁。 首先,传统的银行数据分析主要集中在银行的收入、成本、利润的分配和应对监管部门的监管。这些数据分析非常复杂,但也存在一定的规律,它属于财务数据分析。随着互联网金融的不断发展,银行的业务不断受到挤压,如果仍然将数据分析集中在收入、成本、分配及监管方面,已经不能满足业务的需求。如今,更好的了解客户,收集大量的数据,做更多有针对性的营销和决策分析是当务之急。因此,现在银行的业务分析决策由传统的财务分析逐步转向面向 KYC 的分析。 其次

Flink 源码解析 —— 深度解析 Flink 序列化机制

拜拜、爱过 提交于 2021-01-30 04:20:20
Flink 序列化机制 <!--more--> https://t.zsxq.com/JaQfeMf 博客 1、 Flink 从0到1学习 —— Apache Flink 介绍 2、 Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3、 Flink 从0到1学习 —— Flink 配置文件详解 4、 Flink 从0到1学习 —— Data Source 介绍 5、 Flink 从0到1学习 —— 如何自定义 Data Source ? 6、 Flink 从0到1学习 —— Data Sink 介绍 7、 Flink 从0到1学习 —— 如何自定义 Data Sink ? 8、 Flink 从0到1学习 —— Flink Data transformation(转换) 9、 Flink 从0到1学习 —— 介绍 Flink 中的 Stream Windows 10、 Flink 从0到1学习 —— Flink 中的几种 Time 详解 11、 Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 ElasticSearch 12、 Flink 从0到1学习 —— Flink 项目如何运行? 13、 Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Kafka 14、 Flink

Flink 源码解析 —— 深度解析 Flink Checkpoint 机制

大憨熊 提交于 2021-01-30 03:11:13
Flink Checkpoint 机制 <!--more--> https://t.zsxq.com/ynQNbeM 博客 1、 Flink 从0到1学习 —— Apache Flink 介绍 2、 Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3、 Flink 从0到1学习 —— Flink 配置文件详解 4、 Flink 从0到1学习 —— Data Source 介绍 5、 Flink 从0到1学习 —— 如何自定义 Data Source ? 6、 Flink 从0到1学习 —— Data Sink 介绍 7、 Flink 从0到1学习 —— 如何自定义 Data Sink ? 8、 Flink 从0到1学习 —— Flink Data transformation(转换) 9、 Flink 从0到1学习 —— 介绍 Flink 中的 Stream Windows 10、 Flink 从0到1学习 —— Flink 中的几种 Time 详解 11、 Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 ElasticSearch 12、 Flink 从0到1学习 —— Flink 项目如何运行? 13、 Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Kafka 14、

Flink 助力美团数仓增量生产

此生再无相见时 提交于 2021-01-30 03:10:03
简介: 本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:1、数仓增量生产;2、流式数据集成;3、流式数据处理;4、流式 OLAP 应用;5、未来规划。 一、数仓增量生产 1.美团数仓架构 先介绍一下美团数仓的架构以及增量生产。如下图所示,这是美团数仓的简单架构,我把它叫做三横四纵。所谓三横,第一是贯穿全链路的元数据以及血缘,贯穿数据集成、数据处理、数据消费、以及数据应用的全过程链路。另外一块贯穿全链路的是数据安全,包括受限域的认证系统、权限系统、整体的审计系统。根据数据的流向,我们把数据处理的过程分为数据集成、数据处理、数据消费、以及数据应用这 4 个阶段。 在数据集成阶段,我们对于公司内部的,比如说用户行为数据、日志数据、DB 数据、还有文件数据,都有相应的集成的系统把数据统一到我们的数据处理的存储中,比如说 Kafka 中。 在数据处理阶段,分为流式处理链路、批处理链路以及基于这套链路的数仓工作平台(万象平台)。生产出来的数据,经过 Datalink 导入到消费的存储中,最终通过应用以不同的形式呈现出来。 我们目前在 Flink 上面应用比较广泛的地方,包括从 Kafka 把数据导到 Hive,包括实时的处理,数据导出的过程。今天的分享就集中在这些方面。 2.美团 Flink 应用概况 美团的 Flink 目前大概有

大数据丨 ClickHouse 在京东能源管理平台的实践

做~自己de王妃 提交于 2021-01-29 22:46:00
ClickHouse是一款面向大数据场景下的OLAP数据库,相比于传统的基于Hadoop生态圈的OLAP大数据分析系统,ClickHouse具有极致的查询性能、轻量级的架构设计及维护简单等优势。目前社区活跃度高,业界应用实践日趋广泛。 业务介绍 京东能源管理平台是京东科技IoT产品部面向政企客户推出的一款利用物联网、大数据和AI技术实现用能企事业单位对能源大数据进行采集、监测、分析和告警的能耗分析产品,旨在帮助客户实现节能减排,降低单位产品能耗。 能源指标包括用电量、用水量和用天然气量,维度有时间维度(年、月、周、日、时)、厂家、车间、生产线类型、生产线、设备。针对这些指标和维度,提供了实时的数据多维分析与诊断服务。 技术选型 对于数据指标的多维度分析场景,上世纪业界就提出了BI(商业智能)的概念。相较于OLTP(联机事务)系统,业界把此类面向BI的系统统称为OLAP(联机分析)系统。伴随着计算机软件技术的发展、从单机工具的少量数据分析(如Excel),到中等规模数据通过分析型关系数据库构建(如微软的SSAS)的OLAP,再到今日的大数据时代,海量数据的实时OLAP分析引擎,技术上的推陈出新,工具系统上百花齐放百家争鸣,各有优势,但大体上可以将它们从架构模式上划分为两大类: _1. MPP架构。_MPP架构特点是服务将接收到的查询请求发送到每个计算节点,待计算节点计算完成后

Flink 助力美团数仓增量生产

对着背影说爱祢 提交于 2021-01-29 10:16:48
简介: 本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:1、数仓增量生产;2、流式数据集成;3、流式数据处理;4、流式 OLAP 应用;5、未来规划。 一、数仓增量生产 1.美团数仓架构 先介绍一下美团数仓的架构以及增量生产。如下图所示,这是美团数仓的简单架构,我把它叫做三横四纵。所谓三横,第一是贯穿全链路的元数据以及血缘,贯穿数据集成、数据处理、数据消费、以及数据应用的全过程链路。另外一块贯穿全链路的是数据安全,包括受限域的认证系统、权限系统、整体的审计系统。根据数据的流向,我们把数据处理的过程分为数据集成、数据处理、数据消费、以及数据应用这 4 个阶段。 在数据集成阶段,我们对于公司内部的,比如说用户行为数据、日志数据、DB 数据、还有文件数据,都有相应的集成的系统把数据统一到我们的数据处理的存储中,比如说 Kafka 中。 在数据处理阶段,分为流式处理链路、批处理链路以及基于这套链路的数仓工作平台(万象平台)。生产出来的数据,经过 Datalink 导入到消费的存储中,最终通过应用以不同的形式呈现出来。 我们目前在 Flink 上面应用比较广泛的地方,包括从 Kafka 把数据导到 Hive,包括实时的处理,数据导出的过程。今天的分享就集中在这些方面。 2.美团 Flink 应用概况 美团的 Flink 目前大概有

基于Storm构建实时热力分布项目实战

给你一囗甜甜゛ 提交于 2021-01-29 04:20:42
基于Storm构建实时热力分布项目实战 下载地址: 百度云盘 Storm是实时流处理领域的一柄利器,本课程采用最新的Storm版本1.1.0,从0开始由浅入深系统讲解,深入Storm内部机制,掌握Storm整合周边大数据框架的使用,从容应对大数据实时流处理! 适合人群及技术储备要求 这是一门非常具有可操作性的课程,适合Java工程师正处于瓶颈期想提升自己技术、想转型做大数据的开发者,更适合对于大数据感兴趣、想从事大数据 研发工作的同学。本课程将手把手带你从零循序渐进地讲解Storm各方面的技术点,让你轻松胜任实际大数 据实时流处理的工作,稳拿高薪! 技术储备要求 熟练掌握Java SE、Linux即可 课程目录:第1章 课程导学引见课程相关背景,学习建议等等1-1 -导学试看1-2 -OOTB环境运用演示1-3 -授课习气与学习建议第2章 初识实时流处置StormStorm作爲近几年Hadoop生态圈很火爆的大数据实时流处置框架,是成爲大数据研发工程师必备的技艺之一。 本章将从如下几个方面让大家关于Storm有微观上的看法:什麼是Storm、Storm的展开史、Storm比照Hadoop的区别、Storm比照Spark Streaming的区别、Storm的劣势、Storm运用现状及展开趋向、Storm运用案例分享...2-1 -课程目录2-2 -Storm是什麼2-3

面对key数量多和区间查询低效问题:Hash索引趴窝,LSM树申请出场

此生再无相见时 提交于 2021-01-29 03:02:21
摘要: Hash索引有两个明显的限制:(1)当key的数量很多时,维护Hash索引会给内存带来很大的压力;(2)区间查询很低效。如何对这两个限制进行优化呢?这就轮到本文介绍的主角,LSM树,出场了。 我们通过 append-only log 的数据结构,实现了一个具备高写入性能的key-value数据库。 append-only log 之所以有很高的写入性能,主要 得益于磁盘的顺序写入 。这可能违反了我们对磁盘的认知,因为在我们的印象中,写磁盘总是很慢。其实不然,准确地说应该是 随机写磁盘很慢 ,因为在写之前可能会进行多次寻址。如果只是顺序写磁盘,性能是非常的高,如下的一个ACM报告中显示,顺序写磁盘甚至比随机写内存的性能还要高! 举个例子,Kafka是一个高性能的消息队列,它的厉害之处就在于极致地利用磁盘的顺序写入性能,如果生产者和消费者的速率相当,消息甚至可以在操作系统的Page Cache层面就完成了传递。所以,以后别再认为写磁盘很慢了! append-only log 大幅提升了数据写入性能,但是随之而来的是,非常低的数据读取性能。针对这一点,我们采用Hash索引进行了优化,优化的效果也非常的显著。然而,Hash索引有两个明显的限制:(1)当key的数量很多时,维护Hash索引会给内存带来很大的压力;(2)区间查询很低效。如何对这两个限制进行优化呢?这就轮到本文介绍的主角