topic

kafka学习笔记 --- Scala实现Kafka producer 和 consumer

北城以北 提交于 2019-12-07 10:53:43
共两种实现方式: One: package zetdata import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProducer , ProducerRecord} /** * Created by ryan on 17-7-6. */ object ScalaProducerExample extends App{ val topic = "app" val brokers = "192.168.1.81:6667" val props = new Properties() props .put( "bootstrap" , brokers ) props .put( "client.id" , "ScalaProducerExample" ) props .put( "key.serializer" , org.apache.kafka.common.serialization.StringSerializer) props .put( "value.serializer" , org.apache.kafka.common.serialization.StringDeserializer) val producer = new KafkaProducer[ String ,

[翻译] 在Python中使用LDA处理文本

佐手、 提交于 2019-12-07 08:06:34
说明: 原文: http://chrisstrelioff.ws/sandbox/2014/11/13/getting_started_with_latent_dirichlet_allocation_in_python.html 本文包含了上文的主要内容。 关于LDA: LDA漫游指南 使用的python库lda来自: https://github.com/ariddell/lda 。 gensim 库也含有lda相关函数。 安装 $ pip install lda --user 示例 from __future__ import division, print_function import numpy as np import lda import lda.datasets # document-term matrix X = lda.datasets.load_reuters() print("type(X): {}".format(type(X))) print("shape: {}\n".format(X.shape)) print(X[:5, :5]) '''输出: type(X): <type 'numpy.ndarray'> shape: (395L, 4258L) [[ 1 0 1 0 0] [ 7 0 2 0 0] [ 0 0 0 1 10] [ 6 0 1

Apache ActiveMQ Queue Topic 详解

删除回忆录丶 提交于 2019-12-07 01:42:03
一、特性及优势 1、实现 JMS1.1 规范,支持 J2EE1.4以上 2、可运行于任何 jvm和大部分 web 容器(ActiveMQ works great in any JVM) 3、支持多种语言客户端(java, C, C++, AJAX, ACTIONSCRIPT 等等) 4、支持多种协议(stomp,openwire,REST) 5、良好的 spring 支持(ActiveMQ has great Spring Support) 6、速度很快,JBossMQ的十倍(ActiveMQ is very fast; often 10x faster than JBossMQ.) 7、与 OpenJMS、JbossMQ等开源jms provider 相比,ActiveMQ有 Apache 的支 持,持续发展的优势明显。 二、下载部署 1、下载 http://activemq.apache.org/activemq-510-release.html ,下载 5.1.0 Windows Distribution版本 2、安装 直接解压至任意目录(如:d:\ apache-activemq-5.1.0) 3、启动 ActiveMQ服务器 方法 1: 直接运行 bin\activemq.bat 方法 2(在 JVM 中嵌套启动): cd example ant embedBroker

URLSearchParams对象

僤鯓⒐⒋嵵緔 提交于 2019-12-06 22:38:46
URLSearchParams对象用于处理URL中查询字符串,即?之后的部分。 1.语法 其实例对象的用法和Set数据结构类似。实例对象本身是可遍历对象。但是不是遍历器。 var paramsString = 'q=URLUtils.searchParams&topic=api'; var searchParams = new URLSearchParams(paramsString); 2. 实例操作方法 1. has(key) searchParams.has('topic'); // true 2.get(key) searchParams.get('topic'); // 'api' 3.getAll(key) 当同一个键值对应多个值时用该方法 searchParams.getAll('topic'); // ['api'] 4.append(key,value)-增加 searchParams.append('test', 'testvalue'); // searchParams.toString()变为 // "q=URLUtils.searchParams&topic=api&test=testValue" 5delete(key)-删除 会删除所有键值为key的查询参数 searchParams.delete('test'); // searchParams

RocketMq在SparkStreaming中的应用

为君一笑 提交于 2019-12-06 18:51:41
   其实Rocketmq的给第三方的插件已经全了,如果大家有兴趣的话请移步 https://github.com/apache/rocketmq-externals 。本文主要是结合笔者已有的rmq在spark中的应用经验对rocketmq做简单介绍以及经验总结,当然免不了会将rocketmq和如今特别火爆的kafka做一些对比(Ps:为了方便打字rmq后面会是rocketmq的缩写)。    首先对rocktmq做一些流行的消息队列对比。   提到mq不得不提消息队列,对应于数据结构里面的“先进先出”的队列。而rocketmq就是应用于大数据时代拥有高吞吐低延迟特性的分布式消息拥有发布订阅功能的队列系统。这样的分布式消息系统主要提供应用解耦、流量消峰、消息分发等功能。本片不会对安装集群做过多的介绍,安装单机版本rmq的教程移步官方文档 http://rocketmq.apache.org/docs/quick-start/ 。 rocktmq是阿里研发主要作用于双十一这样的高峰期实时流数据处理,起初是基于activemq,但是随着对吞吐量的要求逐步提高,阿里的开发者们逐渐把眼光向kafka转移,但是kafka并不具备低延迟和高可靠性。因此阿里决定研究这样一个兼并传统的订阅消息系统的发布订阅场景与高并发零误差低延时的传输系统。   

分布式消息系统 Kafka 简介

血红的双手。 提交于 2019-12-06 16:46:30
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线应用(消息)和离线应用(数据文件,日志)Kafka就出现了。Kafka可以起到两个作用: 降低系统组网复杂度。 降低编程复杂度,各个子系统不在是相互协商接口,各个子系统类似插口插在插座上,Kafka承担高速数据总线的作用。 1、Kafka主要特点: 同时为发布和订阅提供高吞吐量。据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。 可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如ETL,以及实时应用程序。通过将数据持久化到硬盘以及replication防止数据丢失。 分布式系统,易于向外扩展。所有的producer、broker和consumer都会有多个,均为分布式的。无需停机即可扩展机器。 消息被处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡。 支持online和offline的场景。 2、Kafka的架构

MQ的Queue与Topic区别

只谈情不闲聊 提交于 2019-12-06 16:43:22
队列(Queue)和主题(Topic)是JMS支持的两种消息传递模型: 1、点对点(point-to-point,简称PTP)Queue消息传递模型: 通过该消息传递模型,一个应用程序(即消息生产者)可以向另外一个应用程序(即消息消费者)发送消息。在此传递模型中,消息目的地类型是队列(即Destination接口实现类实例由Session接口实现类实例通过调用其createQueue方法并传入队列名称而创建)。消息首先被传送至消息服务器端特定的队列中,然后从此对列中将消息传送至对此队列进行监听的某个消费者。同一个队列可以关联多个消息生产者和消息消费者,但一条消息仅能传递给一个消息消费者。如果多个消息消费者正在监听队列上的消息,JMS消息服务器将根据“先来者优先”的原则确定由哪个消息消费者接收下一条消息。如果没有消息消费者在监听队列,消息将保留在队列中,直至消息消费者连接到队列为止。这种消息传递模型是传统意义上的懒模型或轮询模型。在此模型中,消息不是自动推动给消息消费者的,而是要由消息消费者从队列中请求获得。 2、发布/订阅(publish/subscribe,简称pub/sub)Topic消息传递模型: 通过该消息传递模型,应用程序能够将一条消息发送给多个消息消费者。在此传送模型中,消息目的地类型是主题

全网最通俗易懂的Kafka入门!

守給你的承諾、 提交于 2019-12-06 16:22:13
摘自: https://www.cnblogs.com/Java3y/p/11982381.html 全网最通俗易懂的Kafka入门! 前言 只有光头才能变强。 文本已收录至我的GitHub仓库,欢迎Star: https://github.com/ZhongFuCheng3y/3y 在这篇之前已经写过两篇基础文章了, 强烈建议 先去阅读: 什么是ZooKeeper? 什么是消息队列? 众所周知,消息队列的产品有好几种,这里我选择学习Kafka的原因,无他,公司在用。 我司使用的是Kafka和自研的消息队列(Kafka和RocketMQ)改版,于是我就想学学Kafka这款消息队列啦。本篇文章对Kafka入门,希望对大家有所帮助。 本文知识点提前预览: 这篇文章花了我很长时间画图,目的是希望以最通俗易懂的方式带大家入门,如果觉得不错, 希望能给我点个赞 ! 一、什么是Kafka? 首先我们得去官网看看是怎么介绍Kafka的: https://kafka.apache.org/intro 在收集资料学习的时候,已经发现有不少的前辈对官网的介绍进行翻译和总结了,所以我这里就不重复了,贴下地址大家自行去学习啦: https://scala.cool/2018/03/learning-kafka-1/ https://colobu.com/2014/08/06/kafka

Unit 3 Getting Together Topic 2 What does your mother do?

扶醉桌前 提交于 2019-12-06 15:13:35
Section A Teaching Goals: Learn some new words and phrases. Learn how to receive guests. Learn how to ask someone’s occupations . T eaching key points and difficult points : Say the words about occupations . expressions about greeting and asking somebody’s occupation . Teaching Procedure: Step 1 Introduction 1. Focus their attention on the teacher. 2. Do duty report. Students make self-introduction. 3. Help the students to express correctly . Step 2 Presentation Ask the students some questions to lead to the topic-occupations. Learn some new words about occupations home, kid, glad, mother,

RabbitMQ入门详解以及使用

旧时模样 提交于 2019-12-06 14:40:13
目的:     RabbitMQ 简介    RabbitMQ 安装及使用       Centos安装       Docker安装 (今天选择Docker安装方法)    RabbitMQ 快速入门    交换机 RabbitMQ简介 各大主流中间件对比    ActiveMQ 是 Apache 出品,最流行的,能力强劲的开源消息总线,并且它一 个完全支持 J M S 规范的消息中间件。 其丰富的 API 、多种集群构建模式使得他成为业界老牌消息中间件,在中 小型企业中应用广泛! MQ 衡量指标:服务性能、数据存储、集群架构 Kafka: RocketMQ 是阿里开源的消息中间件,目前也已经孵化为 Apache 顶级项目, 它是纯 java 开发,具有高吞吐量、高可用性、适合大规模分布式系统 应用的特点。 RocketMQ 思路起源于 Kafka, 它对消息的可靠传输及事务 性做了优化, 目前在阿里集团被广泛应用于交易、充值、流计算、消息推 送、日志流式处理、 binglog 分发等场景 RabbitMQ 是使用 Erlang 语言开发的开源消息队列系统,基于 AMQP 协议 来实现。 AMQP 的主要特征是面向消息、队列、路由(包括点对点和发布 / 订阅)、可靠性、安全。 AMQP 协议更多用在企业系统内, 对数据 _ 致 性、稳定性和可靠性要求很髙的场景