基于云原生的大数据实时分析方案实践
1 方案介绍 大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。实时分析已成为企业大数据分析中最关键的术语,这意味企业可将所有数据用于大数据实时分析,实现在数据接受同时即刻为企业生成分析报告,从而在第一时间作出市场判断与决策。典型的场景如电商大促和金融风控等,基于延迟数据的分析结果已经失去了价值。另外随着云原生时代的到来,云原生天生具有的高效部署、敏捷迭代、云计算资源成本和弹性扩展等优势,正在加速和缩短业务系统落地过程。云原生同样可助力大数据这一过程。 本文主要介绍如何利用 Kubernetes 实现云原生大数据实时分析平台。 2 总体架构 Data Streams:基于 Kafka 的数据流接入方案 Data Computations:基于 Spark Streaming 与 Flink 的流计算方案 Data Pipeline:基于 TKDF(Tencent Kubernetes Data Flow) 的数据工作流方案 Data Store:基于 Iceberg 与 HDFS 的数据湖方案 Data Interactive Analysis:基于 Spark SQL 与 Presto 的 SQL 交互式分析方案 Data Intelligence:基于