apache bookkeeper

Pulsar2.7.0最新版本安装

独自空忆成欢 提交于 2021-01-28 02:27:18
集群说明 搭建 Pulsar 集群至少需要 3 个组件: ZooKeeper 集群(3 个 ZooKeeper 节点组成) bookie 集群(也称为 BookKeeper 集群,3 个 BookKeeper 节点组成) broker 集群(3 个 Pulsar 节点组成,broker 是 Pulsar 的自身实例) Pulsar 的安装包已包含了搭建集群所需的各个组件库。无需单独下载 ZooKeeper 安装包和 BookKeeper 安装包。 3 台 Linux 服务器 IP 分别为 10.9.4.22,10.9.5.17,10.9.5.15,生产建议将各个组件分开部署 在 3 台 Linux 裸机服务器上安装 JDK(要求版本不低于 JDK 8) 下载pulsar 下载最新版本pulsar, https://pulsar.apache.org/download/ tar -zxvf apache-pulsar-2.7.0-bin.tar.gz /workspace/ 安装zookeeper cd /workspace/apache-pulsar-2.7.0/conf/ vim zookeeper.conf 更改zk存储路径 dataDir=/data/zookeeper/zookeeper dataLogDir=/data/zookeeper/logs 添加集群ip信息

Recap | TGIP-001: Pulsar Basics

♀尐吖头ヾ 提交于 2021-01-15 06:55:08
🎙️阅读本文需 8 分钟 上周日(2 月 9 日),Pulsar 开启了 2020 年度第一次直播,也是小 Pu 成长路上的第一次线上直播,我们在 zoom 和 B 站同时进行了直播,也有很多朋友发弹幕和留言给我们,感谢各位的捧场! Pulsar 的第一场线上直播,请来了 StreamNative 的 CEO 郭斯杰大佬,为我们带来了一场关于 「Pulsar Basics」 的分享。 在正式进入内容前,郭斯杰也为大家介绍了什么是 TGIP (Thank God It's Pulsar), 类似可以参考 👇🏻Thank God It's Friday。 https://en.wikipedia.org/wiki/Thank_God_It%27s_Friday 同时更新了 Pulsar 的近况,主要是以下两个: Namespace level offloader https://github.com/apache/pulsar/pull/6183 Supports evenly distribute topics count when splits bundle https://github.com/apache/pulsar/pull/6241 后续大家还想了解关于 Pulsar 的任何问题,都可以去下边这个 repo 下提 issue,没准哪天你的提问就扩展为一期专门的直播啦! 🙋

Pulsar 与 Kafka 全方位对比(上篇):功能、性能、用例

牧云@^-^@ 提交于 2020-08-13 17:48:25
越来越多的消息平台开始采用实时流技术,这促进了 Pulsar 的使用与发展。在 2020 年,Pulsar 的受关注度与使用量都有了显著增加。从《财富》百强企业到有前瞻性的初创团队,凡是开发消息平台和事件流应用程序的公司都对 Pulsar 保持关注,一直在激励着 Pulsar 的发展,并且,围绕 Pulsar 项目的生态也有了迅猛发展,近期多家媒体也在对此争相报道。 最近的新闻和博客文章都在客观地介绍 Pulsar,读者可以清晰地了解 Pulsar 的性能及用例。 Verizon Media 、 Iterable 、 Nutanix 、 Overstock.com 等公司最近也发布了 Pulsar 的用例,并分享了关于如何通过 Pulsar 实现商业目标的一系列想法。 但是,媒体的信息并非完全真实准确。此外,Pulsar 社区的小伙伴也向我们发出请求,希望我们针对近期 Confluent 博客发表的《 Kafka、Pulsar 和 RabbitMQ对比》技术文章做出回应。很庆幸,Pulsar 能够发展如此迅速,并成为一项革新性的技术,我们也很想借此机会深入探究 Pulsar 的性能。 本文将深入介绍 Pulsar 技术、社区及生态的相关信息,客观、全面地展示事件流的整体情况。本系列文章共有两篇,本文为上篇,主要对比 Pulsar 和 Kafka 在性能、架构和特性方面的区别

硬刚 Kafka,Apache 顶级项目背后的公司完成数百万美元 Pre-A 轮融资

我与影子孤独终老i 提交于 2020-08-13 12:27:55
Apache 顶级项目 Pulsar 背后的开源流数据公司 StreamNative 宣布完成数百万美元 Pre-A 轮融资,本轮融资由源码资本领投。StreamNative 在创立初期即获得红杉中国种子基金天使轮投资,在本次 Pre-A 轮红杉中国种子基金继续跟投。 StreamNative (北京原流数据科技发展有限公司,简称为 StreamNative),成立于 2019 年初,是一家开源基础软件公司, 由 Apache 软件基金会顶级项目 Apache PulsarTM 、Apache BookKeeperTM 核心开发者组建而成,围绕 Apache Pulsar 及 Apache BookKeeper 打造下一代流数据平台, 目前是全球唯一一家由 Pulsar 和 BookKeeper 项目原生核心开发者组建的创业公司。 消息系统作为大数据平台基础设施组件,对于构建大数据应用程序尤其关键。Pulsar 采用计算与存储分离的分层架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐以及低延时的高可扩展流数据存储特性,优雅地解决了目前流行消息系统如 Kafka 等在诸多场景遇到的技术瓶颈,并且可以大大降低 IT 设施投入、简化运维操作,提升稳定性,助力业务快速发展。开发者无需修改任何代码,就可以使用 StreamNative

Apache Pulsar 中的地域复制,第 1 篇:概念和功能

自闭症网瘾萝莉.ら 提交于 2020-08-11 08:52:22
灾难恢复规划,甚至更理想情况下使用的防灾规划,它们的重要性怎么强调都不为过,每周都会有相关的头条新闻报道证明这个结论的正确性。无论什么行业,如果遭遇无法预见的事件并影响到日常运维,组织都需要尽可能快速恢复运转,继续为自己的客户提供服务。从数据安全入侵到自然灾害,必须具备妥善的规划,以便快速灵活地应对灾难性事件。如果不具备行之有效的灾难恢复规划,可能导致组织面临各种风险,例如遭受巨大经济损失、声誉受损,甚至为组织的客户和用户造成更严峻的风险。 在多面性的企业软件系统中,防灾策略和恢复规划需要部署在地理位置分散的多个数据中心内。在此类多数据中心部署中,通常会使用地域复制机制提供额外的冗余,以防某个数据中心故障或其他事件导致无法照常继续运作。 本文和下一篇文章将介绍 Apache Pulsar 自带的另一个企业级功能: 地域复制 。Apache Pulsar 使用了 Apache BookKeeper 这一可伸缩的流存储机制,这是一种可跨越多个数据中心,同时支持同步地域复制(借助 Apache BookKeeper)和异步地域复制(通过 Broker 级别的配置)的消息系统。首先本文将介绍一些简单的概念和功能,下篇文章将侧重于具体的部署实践。 概念 地域复制是一种典型的灾难恢复机制。虽然很多数据系统都宣称支持地域复制,然而这些系统通常只能复制到两个数据中心,如果要复制到更多位置

选择 Pulsar 而不是 Kafka 的 7 大理由

流过昼夜 提交于 2020-08-10 00:06:12
凡泰极客导读: 金融界IT同侪们对Kafka应该都很熟悉了,但是也许没有怎么听过Pulsar —— 一个Apache基金会管理下的顶级开源项目。个人一直非常关注这个有趣的技术,首先是出于一定的“感情” , 它的核心技术之一BookKeeper自从2011年即以ZooKeeper的子项目存在、由Yahoo研发、并有雅虎北京研究院团队良多贡献;Pulsar的核心技术大拿也是雅虎北研的队友,我们算知彼知己吧。 Pulsar一些对金融业务场景非常有价值的地方,个人认为是(1)实时、可靠、持久化的数据跨域复制 – 跨网段、跨机房的实时同步一直是证券业的刚需;(2)Broker无状态 – 弹性伸缩水平扩容这些对于交易应用最难实现的能力,也许有一个更可靠的机制去实现。Kafka诞生在“云原生”概念还没有形成的年代,Pulsar在这方面有后发优势。对于容器化及容器编排技术的友好,也是吸引我们的一个地方。 在凡泰极客,我们的中间件采用NATS和Kafka,但是我们在积极寻找适合Pulsar的场景,相信在证券业中我们会找到它的有趣应用,推荐同业一起研究。 —— 梁启鸿,凡泰极客 Co-Founder 下面列出了选择 PULSAR 而不是 KAFKA 的 7 大理由。 流式处理和队列的合体 Pulsar 就像一个合二为一的产品,不仅可以像 Kafka 那样处理高速率的实时场景,还支持标准的消息队列模式

Pulsar笔记(好)

天大地大妈咪最大 提交于 2020-08-08 02:57:02
Pulsar 是由 Yahoo 于 2016 年开源并捐赠给 Apache 基金会的一款消息中间件,其主要特点是多租户且易于扩展,本文根据自己对 Pulsar 相关文档的理解并请教相关 PMC 后写成,囿于水平有限,错误难免,欢迎留言指正。 1 Pulsar vs Kafka 很多人查看 Pulsar 之前可能对 Kafka 很熟悉,参照上图可见二者内部结构的区别,下面详述二者的异同以明了 Pulsar 的特点。 1.1 名词对应表 根据个人对 参考文档1 的理解,整理如下 Pulsar 和 Kafka名词对应列表 : Pulsar Kafka Topic Topic Partition Partition Ledger(Segment)/Fragment Fragment/Segment Bookie Broker Broker Client SDK Ensemble Size metadata.broker.list Write Quorum Size (Qw) Replica Number Ack Quorum Size (Qa) request.required.acks Pulsar 和 Kafka 都是以 Topic 描述一个基本的数据集合,Topic 数据又分为若干 Partition,即对数据进行逻辑上的 sharding 后存储为若干子集合。但 Kafka 以

理解Apache Pulsar工作原理(好)

廉价感情. 提交于 2020-08-04 18:17:24
在这篇文章中,我们将介绍Apache Pulsar的设计,这篇文章不适合想要了解如何使用Apache Pulsar的读者,适合想要了解Apache Pulsar是如何工作的读者。 设计核心 保证不丢失消息(使用正确的配置且不是整个数据中心故障) 强顺序性保证 可预测的读写延迟 Apache Pulsar选择一致性而不是可用性就像BookKeeper和Zookeeper一样。Apache Pulsar尽一切努力保持一致性。 这篇文章中不会介绍跨机房复制相关的内容,我们只关注一个集群。 多层抽象 Apache Pulsar在上层具有高级别的Topic(主题)和Subscription(订阅)的概念,在底层数据存储在二进制文件中,这些数据交叉分布在多个服务器上的多个Topic。在其中包含很多的细节部分。我个人认为把它分成不同的抽象层更容易理解Apache Pulsar的架构设计,所以这就是我在这篇文章中要做的事情。 接下来我们按照下图,一层一层的进行分析。 图1.分层抽象 第一层 - Topic、Subscription和Cursors 我们将要简要介绍Topic(主题)、Subsription(订阅)和Cursors(游标)的基本概念,不会包含深层次的消息传递方式。 图2.Topic和Subscription 消息存储在Topic中。逻辑上一个Topic是日志结构

pulsar之AutoRecovery功能

蓝咒 提交于 2020-07-29 04:04:12
pulsar支持应用无感知的扩展与迁移。 对broker,我们不论是升级还是扩展都非常简单,此处不做介绍。但是对于bookie,还是需要注意一些地方的。 autorecovery 关闭 bookkeeper shell autorecovery -disable 开启 bookkeeper shell autorecovery -enable 做迁移bookie的时候开启自动拷贝,会自动将关闭bookie的消息拷贝到新增的bookie上。 如何查看拷贝的ledger 显示bookkeeper的复制列表(此处可看出所有下架bookie的消息对否拷贝完全) bookkeeper shell listunderreplicated 显示bookkeeper的未复制列表(对某台bookie而言) bookkeeper shell listunderreplicated -missingreplica 172.16.4.224:3181 显示某个ledgerId的元数据信息 bookkeeper shell ledgermetadata -ledgerid 89 问题一 https://github.com/apache/bookkeeper/issues/2001 楼主碰到了这个bug。 现象是 13:34:36.437 [db-storage-cleanup-16-1] WARN org

新一代消息系统Apache Pulsar 2.1 重磅发布

浪尽此生 提交于 2020-05-07 19:47:58
Apache Pulsar 是 2016 年 yahoo 开源的下一代大规模分布式消息系统,目前已经加入 Apache 基金会。在 Yahoo 的生产环境中大规模部署并使用了近 4 年,服务于 Mail、Finance、Sports、Flickr、the Gemini Ads platform、Sherpa 以及 Yahoo 的 KV 存储等,在 Yahoo 全球 8 个数据中心之间维护了全联通的复制,并支持了 200 多万个 Topics。 Apache Pulsar 有几个明显区别于其他消息系统的特点: 优秀的数据持久性和顺序性。每一条消息都提供了全局唯一的 ID,多副本,并都是在实时刷盘后再返回给用户。 统一的消费模型: 支持 Stream (如 Kafka )和 Queue (如 RabbitMQ )两种消费模型, 支持 exclusive、failover 和 shared 三种消费模式。 灵活的扩展性: 节点扩展的线性和瞬时完成,在扩展中不会有数据的拷贝和迁移。 高吞吐低延迟,在实时刷盘的前提下,依然提供了高带宽( 180 万 messages/ 秒)和低延迟( 5ms at 99%)。 Pulsar 2.1 更加了丰富消息系统之外的“ Stream Native ”的属性,比如 Schema 的支持, 层级存储, 状态函数等。。 =========== 今天