Kafka | 易学教程

Java 项目权威排名：Nacos 未上版，Gradle 排名第二，Maven 排名 28

阅读更多关于 Java 项目权威排名：Nacos 未上版，Gradle 排名第二，Maven 排名 28

Python实战社群 Java实战社群长按识别下方二维码，按需求添加扫码关注添加客服进Python社群▲ 扫码关注添加客服进Java社群 ▲ 来源丨toutiao.com/i6908912198412681732/ https://github.com/ossf/criticality_score 发布了开源项目排名，下载地址： https://commondatastorage.googleapis.com/ossf-criticality-score/index.html 我在这里选出我感兴趣，而且和公众认知不大一致的排名。 Java项目权威Top200排名-结果出乎你意料 Spring生态 Java项目权威Top200排名-结果出乎你意料这点毫无疑问，Spring生态是Java开发的实际标准规范。 Java项目权威Top200排名-结果出乎你意料基于“事件驱动架构”的Spring Cloud Stream项目也上榜了，这才是微服务解耦的正确姿势。 Java项目权威Top200排名-结果出乎你意料 gradle vs maven（第2名vs第27） gradle无论是易用性还是性能都超过maven，但是大部分同学还苦苦守着maven。 Java项目权威Top200排名-结果出乎你意料 kafka vs pulsar（第12名vs第20名）

Flink实战，APP推广情况分析

阅读更多关于 Flink实战，APP推广情况分析

接着 https://blog.51cto.com/mapengfei/2581240 这里用Flink来实现对APP在每个渠道的推广情况包括下载、查看、卸载等等行为的分析因为之前的文章都是用scala写的，这篇用纯java来实现一波，分别演示下用aggregate 聚合方式和process 方式的实现和效果整体思路 1、准备好数据源：这里用SimulatedSource 来自己随机造一批数据 2、准备数据输入样例 `MarketUserBehavior` 和输出样例`MarketViewCountResult` 3、准备环境并设置watermark时间，和指定事件时间字段为timestamp 4、进行过滤：uninstall 的行为过滤掉（根据实际情况来改） 5、根据行为和渠道进行KeyBy统计 6、设置滑动窗口1小时，每10s输出一次 7、进行聚合输出 /** * @author mafei * @date 2021/1/9 */ package com.mafei.market; import cn.hutool.core.util.RandomUtil; import org.apache.flink.api.common.functions.AggregateFunction; import org.apache.flink.api.common

Kafka消费者之提交消息的偏移量

阅读更多关于 Kafka消费者之提交消息的偏移量

原文链接: https://cloud.tencent.com/developer/article/1462432 一、概述在新消费者客户端中，消费位移是存储在Kafka内部的主题 __consumer_offsets 中。把消费位移存储起来（持久化）的动作称为 “提交” ，消费者在消费完消息之后需要执行消费位移的提交。参考下图的消费位移，x 表示某一次拉取操作中此分区消息的最大偏移量，假设当前消费者已经消费了 x 位置的消息，那么我们就可以说消费者的消费位移为 x ，图中也用了 lastConsumedOffset 这个单词来标识它。不过需要非常明确的是，当前消费者需要提交的消费位移并不是 x ，而是 x+1 ，对应上图中的 position ，它表示下一条需要拉取的消息的位置。 KafkaConsumer 类提供了 partition(TopicPartition) 和 committed(TopicPartition) 两个方法来分别获取上面所说的 postion 和 committed offset 的值。这两个方法的定义如下所示： public long position(TopicPartition partition) public OffsetAndMetadata committed(TopicPartition partition) 可通过

「Kafka」Kafka中offset偏移量提交

阅读更多关于「Kafka」Kafka中offset偏移量提交

在消费Kafka中分区的数据时，我们需要跟踪哪些消息是读取过的、哪些是没有读取过的。这是读取消息不丢失的关键所在。 Kafka是通过offset顺序读取事件的。如果一个消费者退出，再重启的时候，它知道从哪儿继续读取消息进行处理。所以，消费者需要「提交」属于它们自己的偏移量。如果消费者已经提交了偏移量，但消息没有得到有效处理，此时就会造成消费者消息丢失。所以，我们应该重视偏移量提交的时间点以及提交的方式。 Kafka消费者的可靠性配置 1、group.id 如果两个消费者有相同的 group.id，并且定义同一个主题，那么每个消费者都会消费一个分区的数据 2、auto.offset.reset 这个参数的作用是：当没有偏移量提交（例如：消费者第一次启动、或者请求的偏移量在broker上不存在时），消费者会如何处理 earliest：消费者从分区的开始位置读取大量的重复数据，可以保证个最少的数据丢失 latest：消费者会从分区的末尾开始读取数据，可以减少重复读，但很有可能会错过一些消息 3、enable.auto.commit 可以设置自动提交偏移量，可以在代码中手动提交偏移量自动提交，可以让消费者逻辑更简单但它无法控制重复处理消息、或者如果消息交给另外一个后台线程去处理，自动提交机制可能会在消息还没有处理完就提交了偏移量 4、auto.commit.interval.ms

大数据--kafka学习

阅读更多关于大数据--kafka学习

第一部分 Kafka架构与实战 1.1 概念和基本架构 1.1.1 Kafka介绍 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多生产者、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。 Kafka主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能。高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输。支持Kafka Server间的消息分区，及分布式消费，同时保证每个partition内的消息顺序传输。 * 同时支持离线数据处理和实时数据处理。支持在线水平扩展有两种主要的消息传递模式：点对点传递模式、发布-订阅模式。大部分的消息系统选用发布-订阅模式。Kafka就是一种发布-订阅模式。对于消息中间件，消息分推拉两种模式。Kafka只有消息的拉取，没有推送，可以通过轮询实现消息的推送 Kafka在一个或多个可以跨越多个数据中心的服务器上作为集群运行。 Kafka集群中按照主题分类管理，一个主题可以有多个分区，一个分区可以有多个副本分区。

用 Docker 快速搭建 Kafka 集群

阅读更多关于用 Docker 快速搭建 Kafka 集群

开源Linux 一个执着于技术的公众号版本 • JDK 14 • Zookeeper • Kafka 安装 Zookeeper 和 Kafka Kafka 依赖 Zookeeper，所以我们需要在安装 Kafka 之前先拥有 Zookeeper。准备如下的 docker-compose.yaml 文件，将文件中的主机地址 192.168.1.100 替换成你自己的环境中的主机地址即可。 version : "3" services : zookeeper : image : zookeeper build : context : ./ container_name : zookeeper ports : - 2181 : 2181 volumes : - ./ data / zookeeper / data :/ data - ./ data / zookeeper / datalog :/ datalog - ./ data / zookeeper / logs :/ logs restart : always kafka_node_0 : depends_on : - zookeeper build : context : ./ container_name : kafka - node - 0 image : wurstmeister / kafka environment

springboot整合kafka

阅读更多关于 springboot整合kafka

为了方便起见安装zk集群和kafka集群我就不详细说明了，以下摘自https://www.cnblogs.com/lentoo/p/7785004.html，文章部分内容我做了修改，因为版本或者命令改变 kafka集群搭建（windows环境下）一、简介 Kafka 是一个实现了分布式的、具有分区、以及复制的日志的一个服务。它通过一套独特的设计提供了消息系统中间件的功能。它是一种发布订阅功能的消息系统。 1、名词介绍 Message 消息，就是要发送的内容，一般包装成一个消息对象。 Topic 通俗来讲的话，就是放置“消息”的地方，也就是说消息投递的一个容器。假如把消息看作是信封的话，那么 Topic 就是一个邮箱 Partition && Log Partition 分区，可以理解为一个逻辑上的分区，像是我们电脑的磁盘 C:, D:, E: 盘一样, Kafka 为每个分区维护着一份日志Log文件。 Producers （生产者）和其他消息队列一样，生产者通常都是消息的产生方。在 Kafka 中它决定消息发送到指定Topic的哪个分区上。 Consumers （消费者）消费者就是消息的使用者，在消费者端也有几个名词需要区分一下。一般消息队列有两种模式的消费方式，分别是队列模式和订阅模式。队列模式：一对一，就是一个消息只能被一个消费者消费，不能重复消费

腾讯云 Serverless ETL —— 蘑菇街实战落地

阅读更多关于腾讯云 Serverless ETL —— 蘑菇街实战落地

背景蘑菇街旨在做一家高科技轻时尚的互联网公司，公司的核心宗旨就是购物与社区的相互结合，为更多消费者提供更有效的购物决策建议。蘑菇街上每天有几百万网友在这里交流时尚、购物的话题，相互分享，这些行为会产生大量的数据，当这些数据源产生数据后，需要有一个组件获取数据源的数据，将数据写到 kafka，蘑菇街研发团队以往的解决办法，一是通过 Lofstash、Filebeat 等开源的数据存储方案处理，二是自己写代码实现这种逻辑。开始数据量小的时候还可以，随着业务的不断扩张，数据越来越大，为了保障可用性、可靠性以及性能相关的内容，需要大量的研发资源投入，因此，亟待新的解决方案支持。 CKafka 全称是 Tencent Cloud Kafka ，是一款适合公有云部署、运行、运维的分布式、高可靠、高吞吐和高可扩展的消息队列系统。它 100% 兼容开源的 Kafka API，目前主要支持开源的 0.9, 0.10, 1.1.1, 2.4.2 四个大版本，并提供向下兼容的能力。目前 Tencent Cloud Kafka 维护了近万节点的集群，堆积数据达到了 PB 级。是一款集成了租户隔离、限流、鉴权、安全、数据监控告警、故障快速切换、跨可用区容灾等等一系列特性的，历经大流量检验的、可靠的公有云上 Kafka 集群。 CKafka 目前服务对象包括拼多多、微信、哔哩哔哩

【Redis】二、Redis高级特性

阅读更多关于【Redis】二、Redis高级特性

（三） Redis高级特性前面我们介绍了Redis的五种基本的数据类型，灵活运用这五种数据类型是使用Redis的基础，除此之外，Redis还有一些特性，掌握这些特性能对Redis有进一步的了解，比如Redis事务、Redis分区、Redis的数据备份等等。 1、Redis HyperLogLog Redis从2.8.9版本开始加入了HyperLogLog，这听起来有点陌生，实际上它是一个用来做基数统计的算法（基数就是数据集中不重复的元素个数，比如数据集 {1, 3, 5, 7, 5, 7, 8}，那么这个数据集的基数集为 {1, 3, 5 ,7, 8}，基数为5）。 Redis做基数统计有其特有的优势，在输入元素的数量或者体积非常非常大时，Redis计算基数所需的空间总是固定的、并且是很小的，每个 HyperLogLog 键只需要花费 12 KB 内存，就可以计算接近 2^64 个不同元素的基数，但是它只计算基数，并不储存输入元素本身。<div align=center> </div> 2、Redis数据备份与恢复 Redis支持数据的备份，并可以从备份中恢复数据。这主要就是涉及到一个save命令。当输入save命令时，将在redis安装目录穿件dump.rdb文件，此文件就是备份的数据。如果想恢复数据，只需要将dump.rdb移动到安装目录下

B站疯传！堪称最强！一整套大数据资料，白拿不谢！

阅读更多关于 B站疯传！堪称最强！一整套大数据资料，白拿不谢！

金九银十找工作黄金季，因为疫情，上半年找时间看完了下面这 11个视频，收获真的不小！这套视频是【奈学教育】联合多名一线互联网大厂资深老师录制的，原价 1800 元，现在免费给你！希望你能有所收获！进个大厂！视频资料 1-Kafka 消息引擎底层架构深度剖析 2-深度揭秘世界级分布式文件系统 HDFS 的架构设计 3-数据中台建设数据治理篇 4-手写RPC实现 5-手写分布式文件系统 6-手写分布式计算引擎 7-Kafka高性能的消息封装流程源码剖析 8-Kafka客户端容错体系源码剖析 9-Kafka服务端高性能架构设计源码剖析 10-Kafka数据管理源码剖析 11-金九银十黄金季，让你与BAT大厂更进一步的秘籍扫码添加小助手，本号粉丝限量100份！先到先得，免费领取 👇👇👇 长按扫码可识别微信（内容的价值取决于您的行动，千万莫做收藏家）除了视频，再免费分享给你一个价值199元的《 Kafka消息引擎底层架构深度剖析》主题课。现在企业里面有越来越多的数据密集型的应用，对于数据密集型应用来说，数据量激增、数据复杂度增加以及数据变化速率变快是考验架构师的三大要素，Kafka在应对这些问题方面备受青睐，其已经成为全世界最流行的消息系统之一。本次课程将从底层原理出发，深度剖析Kafka引擎核心原理，帮助大家深入理解Kafka引擎。（往下翻，扫码

订阅 Kafka