Kafka

Java 项目权威排名:Nacos 未上版,Gradle 排名第二,Maven 排名 28

孤街醉人 提交于 2021-01-12 14:45:46
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 来源丨toutiao.com/i6908912198412681732/ https://github.com/ossf/criticality_score 发布了开源项目排名,下载地址: https://commondatastorage.googleapis.com/ossf-criticality-score/index.html 我在这里选出我感兴趣,而且和公众认知不大一致的排名。 Java项目权威Top200排名-结果出乎你意料 Spring生态 Java项目权威Top200排名-结果出乎你意料 这点毫无疑问,Spring生态是Java开发的实际标准规范。 Java项目权威Top200排名-结果出乎你意料 基于“事件驱动架构”的Spring Cloud Stream项目也上榜了,这才是微服务解耦的正确姿势。 Java项目权威Top200排名-结果出乎你意料 gradle vs maven(第2名vs第27) gradle无论是易用性还是性能都超过maven,但是大部分同学还苦苦守着maven。 Java项目权威Top200排名-结果出乎你意料 kafka vs pulsar(第12名vs第20名)

Flink实战,APP推广情况分析

拈花ヽ惹草 提交于 2021-01-12 14:42:28
接着 https://blog.51cto.com/mapengfei/2581240 这里用Flink来实现对APP在每个渠道的推广情况包括下载、查看、卸载等等行为的分析 因为之前的文章都是用scala写的,这篇用纯java来实现一波, 分别演示下用aggregate 聚合方式和process 方式的实现和效果 整体思路 1、准备好数据源: 这里用SimulatedSource 来自己随机造一批数据 2、准备数据输入样例 `MarketUserBehavior` 和输出样例`MarketViewCountResult` 3、准备环境并设置watermark时间,和指定事件时间字段为timestamp 4、进行过滤:uninstall 的行为过滤掉(根据实际情况来改) 5、根据行为和渠道进行KeyBy统计 6、设置滑动窗口1小时,每10s输出一次 7、进行聚合输出 /** * @author mafei * @date 2021/1/9 */ package com.mafei.market; import cn.hutool.core.util.RandomUtil; import org.apache.flink.api.common.functions.AggregateFunction; import org.apache.flink.api.common

Kafka消费者之提交消息的偏移量

扶醉桌前 提交于 2021-01-11 01:53:52
原文链接: https://cloud.tencent.com/developer/article/1462432 一、概述 在新消费者客户端中,消费位移是存储在Kafka内部的主题 __consumer_offsets 中。把消费位移存储起来(持久化)的动作称为 “提交” , 消费者在消费完消息之后需要执行消费位移的提交 。 参考下图的消费位移,x 表示某一次拉取操作中此分区消息的最大偏移量,假设当前消费者已经消费了 x 位置的消息,那么我们就可以说消费者的消费位移为 x ,图中也用了 lastConsumedOffset 这个单词来标识它。 不过需要非常明确的是,当前消费者需要提交的消费位移并不是 x ,而是 x+1 ,对应上图中的 position ,它表示下一条需要拉取的消息的位置。 KafkaConsumer 类提供了 partition(TopicPartition) 和 committed(TopicPartition) 两个方法来分别获取上面所说的 postion 和 committed offset 的值。这两个方法的定义如下所示: public long position(TopicPartition partition) public OffsetAndMetadata committed(TopicPartition partition) 可通过

「Kafka」Kafka中offset偏移量提交

十年热恋 提交于 2021-01-10 21:24:51
在消费Kafka中分区的数据时,我们需要跟踪哪些消息是读取过的、哪些是没有读取过的。这是读取消息不丢失的关键所在。 Kafka是通过offset顺序读取事件的。如果一个消费者退出,再重启的时候,它知道从哪儿继续读取消息进行处理。所以,消费者需要 「提交」属于它们自己的偏移量。 如果消费者已经提交了偏移量,但消息没有得到有效处理,此时就会造成消费者消息丢失。所以,我们应该重视偏移量提交的时间点以及提交的方式。 Kafka消费者的可靠性配置 1、group.id 如果两个消费者有相同的 group.id,并且定义同一个主题,那么每个消费者都会消费一个分区的数据 2、auto.offset.reset 这个参数的作用是:当没有偏移量提交(例如:消费者第一次启动、或者请求的偏移量在broker上不存在时),消费者会如何处理 earliest:消费者从分区的开始位置读取大量的重复数据,可以保证个最少的数据丢失 latest:消费者会从分区的末尾开始读取数据,可以减少重复读,但很有可能会错过一些消息 3、enable.auto.commit 可以设置自动提交偏移量,可以在代码中手动提交偏移量 自动提交,可以让消费者逻辑更简单 但它无法控制重复处理消息、或者如果消息交给另外一个后台线程去处理,自动提交机制可能会在消息还没有处理完就提交了偏移量 4、auto.commit.interval.ms

大数据--kafka学习

痞子三分冷 提交于 2021-01-10 12:48:29
第一部分 Kafka架构与实战 1.1 概念和基本架构 1.1.1 Kafka介绍 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多生产者、多订阅者,基 于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日 志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。 主要应用场景是:日志收集系统和消息系统。 Kafka主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能。 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输。 支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输。 * 同时支持离线数据处理和实时数据处理。 支持在线水平扩展 有两种主要的消息传递模式:点对点传递模式、发布-订阅模式。大部分的消息系统选用发布-订阅模式。Kafka就是一种发布-订阅模式。 对于消息中间件,消息分推拉两种模式。Kafka只有消息的拉取,没有推送,可以通过轮询实现消息的推送 Kafka在一个或多个可以跨越多个数据中心的服务器上作为集群运行。 Kafka集群中按照主题分类管理,一个主题可以有多个分区,一个分区可以有多个副本分区。

用 Docker 快速搭建 Kafka 集群

前提是你 提交于 2021-01-10 10:27:52
开源Linux 一个执着于技术的公众号 版本 • JDK 14 • Zookeeper • Kafka 安装 Zookeeper 和 Kafka Kafka 依赖 Zookeeper,所以我们需要在安装 Kafka 之前先拥有 Zookeeper。准备如下的 docker-compose.yaml 文件,将文件中的主机地址 192.168.1.100 替换成你自己的环境中的主机地址即可。 version : "3" services : zookeeper : image : zookeeper build : context : ./ container_name : zookeeper ports : - 2181 : 2181 volumes : - ./ data / zookeeper / data :/ data - ./ data / zookeeper / datalog :/ datalog - ./ data / zookeeper / logs :/ logs restart : always kafka_node_0 : depends_on : - zookeeper build : context : ./ container_name : kafka - node - 0 image : wurstmeister / kafka environment

springboot整合kafka

﹥>﹥吖頭↗ 提交于 2021-01-09 17:02:31
为了方便起见安装zk集群和kafka集群我就不详细说明了,以下摘自https://www.cnblogs.com/lentoo/p/7785004.html,文章部分内容我做了修改,因为版本或者命令改变 kafka集群搭建(windows环境下) 一、简介 Kafka 是一个实现了分布式的、具有分区、以及复制的日志的一个服务。它通过一套独特的设计提供了消息系统中间件的功能。它是一种发布订阅功能的消息系统。 1、名词介绍 Message 消息,就是要发送的内容,一般包装成一个消息对象。 Topic 通俗来讲的话,就是放置“消息”的地方,也就是说消息投递的一个容器。假如把消息看作是信封的话,那么 Topic 就是一个邮箱 Partition && Log Partition 分区,可以理解为一个逻辑上的分区,像是我们电脑的磁盘 C:, D:, E: 盘一样, Kafka 为每个分区维护着一份日志Log文件。 Producers (生产者) 和其他消息队列一样,生产者通常都是消息的产生方。 在 Kafka 中它决定消息发送到指定Topic的哪个分区上。 Consumers (消费者) 消费者就是消息的使用者,在消费者端也有几个名词需要区分一下。 一般消息队列有两种模式的消费方式,分别是 队列模式 和 订阅模式 。 队列模式 :一对一,就是一个消息只能被一个消费者消费,不能重复消费

腾讯云 Serverless ETL —— 蘑菇街实战落地

拥有回忆 提交于 2021-01-09 07:00:29
背景 蘑菇街旨在做一家高科技轻时尚的互联网公司,公司的核心宗旨就是购物与社区的相互结合,为更多消费者提供更有效的购物决策建议。 蘑菇街上每天有几百万网友在这里交流时尚、购物的话题,相互分享,这些行为会产生大量的数据,当这些数据源产生数据后,需要有一个组件获取数据源的数据,将数据写到 kafka,蘑菇街研发团队以往的解决办法,一是通过 Lofstash、Filebeat 等开源的数据存储方案处理,二是自己写代码实现这种逻辑。 开始数据量小的时候还可以,随着业务的不断扩张,数据越来越大,为了保障可用性、可靠性以及性能相关的内容,需要大量的研发资源投入,因此,亟待新的解决方案支持。 CKafka 全称是 Tencent Cloud Kafka ,是一款适合公有云部署、运行、运维的分布式、高可靠、高吞吐和高可扩展的消息队列系统。它 100% 兼容开源的 Kafka API,目前主要支持开源的 0.9, 0.10, 1.1.1, 2.4.2 四个大版本,并提供向下兼容的能力。 目前 Tencent Cloud Kafka 维护了近万节点的集群,堆积数据达到了 PB 级。是一款集成了租户隔离、限流、鉴权、安全、数据监控告警、故障快速切换、跨可用区容灾等等一系列特性的,历经大流量检验的、可靠的公有云上 Kafka 集群。 CKafka 目前服务对象包括拼多多、微信、哔哩哔哩

【Redis】二、Redis高级特性

五迷三道 提交于 2021-01-09 06:37:11
(三) Redis高级特性   前面我们介绍了Redis的五种基本的数据类型,灵活运用这五种数据类型是使用Redis的基础,除此之外,Redis还有一些特性,掌握这些特性能对Redis有进一步的了解,比如Redis事务、Redis分区、Redis的数据备份等等。 1、Redis HyperLogLog   Redis从2.8.9版本开始加入了HyperLogLog,这听起来有点陌生,实际上它是一个用来 做基数统计的算法 (基数就是数据集中不重复的元素个数,比如数据集 {1, 3, 5, 7, 5, 7, 8}, 那么这个数据集的基数集为 {1, 3, 5 ,7, 8},基数为5)。   Redis做基数统计有其特有的优势,在输入元素的数量或者体积非常非常大时,Redis计算基数所需的空间总是固定的、并且是很小的,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基数,但是它只计算基数,并不储存输入元素本身。<div align=center> </div> 2、Redis数据备份与恢复   Redis支持数据的备份,并可以从备份中恢复数据。这主要就是涉及到一个save命令。   当输入save命令时,将在redis安装目录穿件dump.rdb文件,此文件就是备份的数据。如果想恢复数据,只需要将dump.rdb移动到安装目录下

B站疯传!堪称最强!一整套大数据资料,白拿不谢!

*爱你&永不变心* 提交于 2021-01-08 20:02:35
金九银十找工作黄金季,因为疫情,上半年找时间看完了下面这 11个 视频,收获真的不小!这套视频 是 【奈学教育】 联合多名一线互联网大厂资深老师录制的, 原价 1800 元 ,现在 免费 给你!希望你能有所收获!进个大厂! 视频资料 1-Kafka 消息引 擎底层架构深度剖析 2-深度揭秘世界级分布式文件系统 HDFS 的架构设计 3-数据中台建设数据治理篇 4-手写RPC实现 5-手写分布式文件系统 6-手写分布式计算引擎 7-Kafka高性能的消息封装流程源码剖析 8-Kafka客户端容错体系源码剖析 9-Kafka服务端高性能架构设计源码剖析 10-Kafka数据管理源码剖析 11-金九银十黄金季,让你与BAT大厂更进一步的秘籍 扫码添加小助手,本号粉丝限量100份! 先到先得,免费领取 👇👇👇 长按扫码可识别微信 (内容的价值取决于您的行动,千万莫做收藏家) 除了视频,再免费分享给你一个 价值199元的《 Kafka消息引擎底层架构深度剖析》主题课。 现在企业里面有越来越多的数据密集型的应用,对于数据密集型应用来说, 数据量激增、数据复杂度增加以及数据变化速率变快 是考验架构师的三大要素,Kafka在应对这些问题方面备受青睐,其已经成为全世界最流行的消息系统之一。 本次课程将从底层原理出发, 深度剖析Kafka引擎核心原理 ,帮助大家深入理解Kafka引擎。 (往下翻,扫码