Apache Flink

【华为云技术分享】DLI跨源|当DLI遇见MongoDB

最后都变了- 提交于 2020-08-06 05:37:24
导语: MongoDB作为灵活高效易扩展的no-schema数据库,越来越受到互联网公司、游戏行业等开发者的青睐,但是MongoDB有着独特的语言接口,并不能很好满足数据分析师构建数据治理应用的需求,而数据湖探索DLI恰好解决了这一痛点。搭配华为云上DDS服务提供的MongoDB,DLI无需数据搬迁,便可以直接使用SQL分析,并且将分析后的数据导入OBS,RDS,DWS等更多的云上数据存储。当DLI遇见MongoDB,让数据不再成为“孤岛”。 一、X游戏公司的数据分析场景 X游戏公司最近新上了一款爆款手游A,日活突破百万,每月都能为X公司贡献数千万的利润。随着游戏业务量的迅猛发展,游戏数据分析师小鑫遇到了前所未有的挑战。 当时为了游戏快速上线,架构师选用华为云DDS服务提供的MongoDB数据库,用于用户数据存储。MongoDB高性能,易扩展,no-schema等特性,很好的支撑了游戏爆发式数据增长以及游戏玩法的快速更新迭代。但是,现在存储在MongoDB里的海量数据,犹如隐藏在群山中的矿脉,如何才能挖掘其中更大价值?如何筛选出优质客户从而提供更好地服务?如何分析用户行为,为游戏开发提供切实可行的数据支持?。。。种种数据分析需求,让小鑫抓狂了,他急需一种易用高效的分析工具,协助他完成数据挖掘任务。 二、MongoDB的数据存储 在解决小鑫的问题之前,让我们来了解一下MongoDB

Flink:RetractStreamTableSink 自定义sink写数据到Phoenix

久未见 提交于 2020-08-06 03:13:24
文章目录 目标 Sink定义 使用自定义Sink 测试 目标 两张表left join的结果更新写入Phoenix 数据样例: ( true,12,2,3,2020-06-18T00:00,2020-06-18T00:00 ) ( true,12,2,5,2020-06-18T00:00,2020-06-18T00:00 ) ( true,12,2,2,2020-06-18T00:00,2020-06-18T00:00 ) ( true,12,2,4,2020-06-18T00:00,2020-06-18T00:00 ) ( true,13,2,null,2020-06-18T00:00,null ) ( false,13,2,null,2020-06-18T00:00,null ) ( true,13,2,2,2020-06-18T00:00,2020-06-18T00:00 ) Sink定义 由于数据Phoenix可以不考虑删除的操作,所以只用处理Boolean为ture的数据,示例如下: class PhoenixSinkFunction < IN > extends RichSinkFunction < IN > { final JDBCUpsertOutputFormat outputFormat ; PhoenixSinkFunction (

Flink 中的应用部署:当前状态与新应用模式

人走茶凉 提交于 2020-08-04 20:16:29
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 作为现代企业的重要工具,流处理和实时分析这类工具逐渐兴起,越来越多的企业以 Apache Flink 为核心构建平台,并将其作为服务在内部提供。在最新举办的 Flink Forward 会议中, Uber 、 Netflix 和 阿里巴巴等公司的许多相关主题演讲进一步说明了这一趋势。 这些平台旨在通过减轻最终用户的所有运营负担来简化内部的 Application (应用)提交。为了提交 Flink 应用程序,这些平台通常只公开一个集中式或低并行度端点(例如 Web 前端)用于应用提交,我们将调用 Deployer(部署器)。 平台开发人员和维护人员经常提到的障碍之一是,Deployer 可能是一个很难配置的大量资源消耗者。如果按照平均负载进行配置,可能会导致 Deployer 服务被部署请求淹没(在最坏的情况下,短时间内对所有生产应用程序都是如此),而按照最高负载进行规划的话,又会带来不必要的成本。根据这一观察结果,Flink 1.11 引入了 Application 模式(应用模式)作为部署选项,它允许一个轻量级、更可伸缩性的应用提交过程,从而使应用程序部署负载更均匀地分布在集群的各个节点上。 为了理解这个问题以及了解 Application 模式如何解决该问题

kerberos系列之flink认证配置

我们两清 提交于 2020-08-04 18:32:17
大数据安全系列的其它文章 https://www.cnblogs.com/bainianminguo/p/12548076.html-----------安装kerberos https://www.cnblogs.com/bainianminguo/p/12548334.html-----------hadoop的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12548175.html-----------zookeeper的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12584732.html-----------hive的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12584880.html-----------es的search-guard认证 https://www.cnblogs.com/bainianminguo/p/12639821.html-----------flink的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12639887.html-----------spark的kerberos认证

上亿条数据,如何查询分析简单又高效?

若如初见. 提交于 2020-07-28 12:30:15
摘要: 正值618大促,小张遇到了一个棘手的问题,需要在一周内将公司近1年电商部门的营收和线下门店经营数据进行联合分析。 这将产生哪些数据难题呢? 数据孤岛:电商部门的数据存在数仓A、门店经营收入数据存在数仓B,如何便捷的进行多仓联合分析? PB级数据量:多电商平台+全国线下门店每天将产生TB级数据量,年数据量高达PB级! 他在第一时间联系了集团CTO,希望将各部门数据在一天内导出给他。 这时候,CTO犯难了: 公司现有的资源池可自如应对TB级数据量,而小张要的数据量粗略估计达到了PB级,大大超出了公司现有资源池承受范围,只能以时间为代价导出;而为了不常见场景扩大公司资源池,整体的成本太高。 面对小张遇到的棘手问题,云湖湖推荐了一款华为云大数据查询分析神器——数据湖探索(DLI)服务;一个DLI即可撬动EB级数据量联合查询,每CU仅需0.35元/小时(1CU=1Core4G Mem),1CU包月仅需150元。 数据湖探索(DLI)服务 2.0是完全兼容Apache Spark和Apache Flink生态的Serverless大数据计算分析服务,用户仅需使用标准SQL或程序即可查询分析各类异构数据源。 DLI是如何解决小张问题的呢? DLI服务架构——Serverless DLI是无服务器化的大数据查询分析服务它的优势在于: (1)按量计费:真正的按使用量(扫描量/CU时)计费

都在说实时数据架构,你了解多少?

元气小坏坏 提交于 2020-07-28 11:07:38
作者:刘大龙@唯品会 随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G 技术的成熟、广泛应用, 对于工业互联网、物联网等数据时效性要求非常高的行业,企业就更需要一套完整成熟的实时数据体系来提高自身的行业竞争力。 本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案,本文主要分为三个部分: 第一部分主要介绍了当下在工业界比较火热的实时计算引擎 Flink 在实时数据体系建设过程中主要的应用场景及对应解决方案; 第二部分从实时数据体系架构、实时数据模型分层、实时数据体系建设方式、流批一体实时数据架构发展等四个方面思考了实时数据体系的建设方案; 第三部分则以一个具体案例介绍如何使用 Flink SQL 完成实时数据统计类需求。 一、Flink 实时应用场景 目前看来,Flink 在实时计算领域内的主要应用场景主要可分为四类场景, 分别是实时数据同步、流式 ETL、实时数据分析和复杂事件处理,具体的业务场景和对应的解决方案可详细研究下图, 文字层面不再详述。 二、实时数据体系架构 实时数据体系大致分为三类场景:流量类、业务类和特征类,这三种场景各有不同。 在数据模型上

flink BroadcastStream

与世无争的帅哥 提交于 2020-07-27 12:58:48
使用场景: 在处理数据的时候,有些配置是要实时动态改变的,比如说我要过滤一些关键字,这些关键字呢是在MYSQL里随时配置修改的,那我们在高吞吐计算的Function中动态查询配置文件有可能使整个计算阻塞,甚至任务停止。 广播流可以通过查询配置文件,广播到某个 operator 的所有并发实例中,然后与另一条流数据连接进行计算。 实现步骤: 1、定义一个MapStateDescriptor来描述我们要广播的数据的格式 final MapStateDescriptor<String, String> CONFIG_DESCRIPTOR = new MapStateDescriptor<>( "wordsConfig", BasicTypeInfo.STRING_TYPE_INFO, BasicTypeInfo.STRING_TYPE_INFO); 2、需要一个Stream来广播下游的operator 我这里实现了一个只有1个并发度的数据源,定时查配置文件,发动到下游 public class MinuteBroadcastSource extends RichParallelSourceFunction<String> { private volatile boolean isRun; private volatile int lastUpdateMin = -1; private

2020团队OKR更新

一曲冷凌霜 提交于 2020-07-27 08:26:26
前言 本来已经实施的OKR计划因为突如其来的疫情打乱了节奏,现在团队已经没人能够记得自己的OKR是什么了。 目前国内疫情早就趋于平稳,是时候找回节奏了。在这里更新团队OKR 强化自组织,持续优化和开放透明的团队文化 第三四季度彻底执行OKR 覆盖全员 月度评审 季度复盘 实现五分钟启动并演示 团队内任意成员在研项目可在5分钟内启动并演示本周期功能 9月前新人进入后10分钟内完成开发环境的生成 扩大服务器集群规模,至少保证12个开发节点的规模 技术进阶集团内第一梯队,公司内领先一代 10月前实现在研项目镜像化比例高于70% UMP除4G平台服务外的全镜像化 ISS全镜像化 实现JGDQ全镜像化 年底前云原生技术实现实用化进阶 自建服务器集群扩大到10台 九月前自建的Paas集群投入项目实际使用 九月前公有云的服务使用 年底前团队中至少2人掌握低代码平台,具备搭建实际软件的能力 低/无代码平台的调研 demo项目的开发和演示 成为ToB领域第一梯队的解决方案团队 年底前具备大数据领域平台开发能力 9月前具备基础的PB级大数据管理平台开发能力,hadoop+hbase 12月前具备大数据处理平台开发能力,MR->Spark->flink 完成团队业绩指标 100%按照预期完成 纯软产值>80万/人 利润>40万/人 具备排除技术型宕机问题或单点故障的能力,具备搭建99.9

深入分析 Flink SQL 工作机制

我与影子孤独终老i 提交于 2020-07-26 23:39:56
作者 | 伍翀(云邪),阿里巴巴技术专家 整理 | 陈婧敏(清樾),阿里巴巴技术专家 摘要:本文整理自 Flink Forward 2020 全球在线会议中文精华版,由 Apache Flink PMC 伍翀(云邪)分享,社区志愿者陈婧敏(清樾)整理。旨在帮助大家更好地理解 Flink SQL 引擎的工作原理。文章主要分为以下四部分: Flink SQL Architecture How Flink SQL Works? Flink SQL Optimizations Summary and Futures Tips:点击下方链接可查看作者分享的原版视频~ https://ververica.cn/developers/flink-forward-virtual-conference/ Apache Flink 社区在最近的两个版本(1.9 & 来源: oschina 链接: https://my.oschina.net/u/4412419/blog/4315170