Kafka | 易学教程

php使用shmop函数创建共享内存减少负载

阅读更多关于 php使用shmop函数创建共享内存减少负载

PHP做内存共享有两套接口。一个是shm，它实际上是变量共享，会把对象变量序列化后再储存。使用起来倒是挺方便，但是序列化存储对于效率优先的内存访问操作而言就没啥意义了。另外一个是shmop，它是Linux和Windows通用的，不过功能上比shm弱了一些，在 Linux 上，这些函数直接是通过调用 shm* 系列的函数实现，而 Winodows 上也通过对系统函数的封装实现了同样的调用。要创建共享内存段需要使用函数shmop，那么前提需要开启扩展。 shmop主要函数 shmop_open （创建或打开共享内存块）、shmop_write （向共享内存块中写入数据）、shmop_read （从共享内存块中读取数据）、shmop_size （获取共享内存块的大小）、shmop_close （关闭共享内存块）、shmop_delete （删除共享内存块） <?php //创建一块共享内存 $shm_key = 0x4337b101; $shm_id = @shmop_open($shm_key, 'c', 0644, 1024); //读取并写入数据 $data = shmop_read($shm_id, 0, 1024); shmop_write($shm_id, json_encode($data), 0); $size = shmop_size($shm_id); /

Spark-Streaming

阅读更多关于 Spark-Streaming

监听文件流创建文件在log1.txt输入 A终端打开spark-shell,输入命令此时监听端已打开 A终端创建新文件log2.txt I love Hadoop I love Spark Spark is slow A结果显示： spark监听套接字流安装nc工具，并开启端口9999 nc -lk 9999 9999端口如果没打开tcp，需要使用farewall命令开启编写监听程序 import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.storage.StorageLevel object NetworkWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: NetworkWordCount <hostname> <port>") System.exit(1) } StreamingExamples.setStreamingLogLevels() // Create the context with a 1 second batch size val sparkConf = new SparkConf()

spark-红酒-白酒评估

阅读更多关于 spark-红酒-白酒评估

Storm ------------------ 实时计算，延迟很低。吞吐量小。 tuple() Spark Streaming ------------------ DStream，离散流计算。相当于一序列RDD。按照时间片划分RDD。 DStream分区 = RDD的分区。动态数据。 StreamingContext( , Seconds( 2 )) windows话操作，batch的扩展。吞吐量大。 socketTextStream() // Socket // 分区200ms kafka流 // kafka分区 == rdd一个分区。 LocationStrategy ------------------ 位置策略，控制主题分区在哪个节点消费。 PreferBroker // 首选kafka服务器 PreferConsistent // 首选均衡处理 PreferFixed // 首选固定位置 ConsumerStrategy ----------------- 控制消费者对kafka消息的消费范围界定。 Assign // 指定,控制到主题下的分区. Subscribe // 订阅主题集合,控制不到主题下的某个分区。 SubscribePattern // 正则消费,对Subscribe的增强，支持正则表达式. 消费语义模型 ---------------- 1

Serverless 架构的演进

阅读更多关于 Serverless 架构的演进

The Serverless Framework (无服务器架构）允许你自动扩展、按执行付费、将事件驱动的功能部署到任何云。目前支持 AWS Lambda、Apache OpenWhisk、Microsoft Azure，并且正在扩展以支持其他云提供商。 Serverless 降低了维护应用程序的总成本，能够更快地构建更多逻辑。它是一个命令行工具，提供脚手架、工作流自动化和开发部署无服务器架构的最佳实践。它也可以通过插件完全扩展。传统单体应用架构十多年前主流的应用架构都是单体应用，部署形式就是一台服务器加一个数据库，在这种架构下，运维人员会小心翼翼地维护这台服务器，以保证服务的可用性。 ▲ 单体架构单体应用架构面临的问题随着业务的增长，这种最简单的单体应用架构很快就面临两个问题。首先，这里只有一台服务器，如果这台服务器出现故障，例如硬件损坏，那么整个服务就会不可用；其次，业务量变大之后，一台服务器的资源很快会无法承载所有流量。解决这两个问题最直接的方法就是在流量入口加一个负载均衡器，使单体应用同时部署到多台服务器上，这样服务器的单点问题就解决了，与此同时，这个单体应用也具备了水平伸缩的能力。 ▲ 单体架构（水平伸缩）微服务架构 1. 微服务架构演进出通用服务随着业务的进一步增长，更多的研发人员加入到团队中，共同在单体应用上开发特性

Flink DataStream API编程指南

阅读更多关于 Flink DataStream API编程指南

点击上方“蓝字”关注我们 Flink DataStream API主要分为三个部分，分别为Source、Transformation以及Sink，其中Source是数据源，Flink内置了很多数据源，比如最常用的Kafka。Transformation是具体的转换操作，主要是用户定义的处理数据的逻辑，比如Map，FlatMap等。Sink(数据汇)是数据的输出，可以把处理之后的数据输出到存储设备上，Flink内置了许多的Sink，比如Kafka，HDFS等。另外除了Flink内置的Source和Sink外，用户可以实现自定义的Source与Sink。考虑到内置的Source与Sink使用起来比较简单且方便，所以，关于内置的Source与Sink的使用方式不在本文的讨论范围之内，本文会先从自定义Source开始说起，然后详细描述一些常见算子的使用方式，最后会实现一个自定义的Sink。数据源 Flink内部实现了比较常用的数据源，比如基于文件的，基于Socket的，基于集合的等等，如果这些都不能满足需求，用户可以自定义数据源，下面将会以MySQL为例，实现一个自定义的数据源。本文的所有操作将使用该数据源，具体代码如下： /** * @Created with IntelliJ IDEA. * @author : jmx * @Date : 2020/4/14 * @Time : 17

王广帅IM工程运行记录

阅读更多关于王广帅IM工程运行记录

1)启动consul ./consul agent -dev -http-port=7777 -ui -server -data-dir=./data -client=0.0.0.0 2)启动kafka > bin/zookeeper-server-start.sh config/zookeeper.properties > bin/kafka-server-start.sh config/server.properties & 参考: https://www.orchome.com/6 其中，kafka中继承了zookeeper，修改kafka_2.12-2.7.0/config/zookeeper.properties文件中为dataDir=/Users/jianan/kafka_2.12-2.7.0/data即可 3)启动mongodb 和 redis 4)对my-game-server使用mvn clean 和 mvn install 5)打包client 来源： oschina 链接： https://my.oschina.net/u/4346143/blog/4836338

BATJ的常见java面试题

阅读更多关于 BATJ的常见java面试题

JAVA基础 JAVA中的几种基本数据类型是什么，各自占用多少字节。 String类能被继承吗，为什么。不可以，因为String类有final修饰符，而final修饰的类是不能被继承的，实现细节不允许改变。 String，Stringbuffer，StringBuilder的区别。 String 字符串常量StringBuffer 字符串变量（线程安全）StringBuilder 字符串变量（非线程安全） ArrayList和LinkedList有什么区别。讲讲类的实例化顺序，比如父类静态数据，构造函数，字段，子类静态数据，构造函数，字段，当new的时候，他们的执行顺序。用过哪些Map类，都有什么区别，HashMap是线程安全的吗,并发下使用的Map是什么，他们内部原理分别是什么，比如存储方式，hashcode，扩容，默认容量等。 JAVA8的ConcurrentHashMap为什么放弃了分段锁，有什么问题吗，如果你来设计，你如何设计。有没有有顺序的Map实现类，如果有，他们是怎么保证有序的。抽象类和接口的区别，类可以继承多个类么，接口可以继承多个接口么,类可以实现多个接口么。继承和聚合的区别在哪。 IO模型有哪些，讲讲你理解的nio ，他和bio，aio的区别是啥，谈谈reactor模型。反射的原理，反射创建类实例的三种方式是什么。反射中，Class

10小时，就能吃透Kafka源码？

阅读更多关于 10小时，就能吃透Kafka源码？

在大数据时代飞速发展的当下，Kafka凭借着其高吞吐低延迟、高压缩性、持久性、可靠性、容错性以及高并发的优势，解决了“在巨大数据下进行准确收集并分析”的难题，也受到了不少大厂以及工程师的青睐，但是有大部分的人，在学习以及面试的过程中才发现自己并没有完全掌握其奥义，对于常见问题仍旧一知半解，这主要是源码阅读的过程中存在问题：（1）源文件太多，不知道重点；（2）源码量太大，无数次从开始到放弃；（3）方法不对，遇到“技巧性”编码就蒙圈；（4）不够体系化，不会将源文件归类阅读。不要担心，这里为你推荐一份 Kafka 进阶精品视频——《Kafka 生产者源码解析》（本号粉丝限时5天免费开放），能让你系统理解 Kafka 底层原理，满足不同阶段的开发工作需求：视频将通过实战项目贯穿技术架构演进始末，用通俗易懂的方式从 Kafka 底层源码设计，深度揭秘 Kafka 各种特性，只用 10h 就可以帮你掌握： 1、快速上手 Kafka 生产者底层实现原理，轻松掌握 Kafka 各种新特性； 2、领略 Kafka 源码设计之美，系统掌握 Kafka 源码实现逻辑，底层机制； 3、扛起 Kafka 架构建设大旗，轻松应对工作、面试中各种 Kafka 难题。各大互联网公司都要求开发者具备源码阅读经验，很看中候选人源码二次开发能力，而《Kafka 生产者源码解析

基于 Flink SQL CDC 的实时数据同步方案

阅读更多关于基于 Flink SQL CDC 的实时数据同步方案

整理：陈政羽（Flink 社区志愿者） Flink 1.11 引入了 Flink SQL CDC，CDC 能给我们数据和业务间能带来什么变化？本文由 Apache Flink PMC，阿里巴巴技术专家伍翀 (云邪）分享，内容将从传统的数据同步方案，基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。传统数据同步方案基于 Flink SQL CDC 的数据同步方案（Demo） Flink SQL CDC 的更多应用场景 Flink SQL CDC 的未来规划直播回顾： https://www.bilibili.com/video/BV1zt4y1D7kt/ 传统的数据同步方案与 Flink SQL CDC 解决方案业务系统经常会遇到需要更新数据到多个存储的需求。例如：一个订单系统刚刚开始只需要写入数据库即可完成业务使用。某天 BI 团队期望对数据库做全文索引，于是我们同时要写多一份数据到 ES 中，改造后一段时间，又有需求需要写入到 Redis 缓存中。很明显这种模式是不可持续发展的，这种双写到各个数据存储系统中可能导致不可维护和扩展，数据一致性问题等，需要引入分布式事务，成本和复杂度也随之增加。我们可以通过 CDC（Change Data Capture）工具进行解除耦合，同步到下游需要同步的存储系统

送书啦，端午节送3本书，文章末抽奖

阅读更多关于送书啦，端午节送3本书，文章末抽奖

导读：目前我国大数据产业发展已步入行业规模快速增长时期，随着 “ 新基建 ” 越来越受重视，大数据产业也将迎来发展新机遇。今天，小编带大家了解一些热门的大数据技术，以及一些硬核好书。来源：华章计算机（hzbook_jsj）目前我国大数据产业发展已步入行业规模快速增长时期，随着云时代的来临，大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产要素，人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据，为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术，广泛应用于物联网、云计算、移动互联网等战略性新兴产业。大数据在用户画像建模、个性化推荐与精准营销中的应用占比越来越大。在众多数据分析方法中，用户画像几乎是后期数据工作的“标配”，适用于应用层的个性化推荐、精准营销、客群管理和运营等各个场景。用户画像是数据分析和算法工程都无法绕过的话题，小编为大家推荐《用户画像：方法论与工程化解决方案》。赵宏田著这是一本从技术、产品和运营3个角度讲解如何从0到1构建一个用户画像系统的著作，同时它还为如何利用用户画像系统驱动企业的营收增长给出了解决方案。书中手把手教授工程实现、模型搭建、应用场景等内容

订阅 Kafka