topic

Kafka常用命令

匿名 (未验证) 提交于 2019-12-02 20:37:20
1.创建topic ./kafka-topics.sh --create --topic test1 --replication-factor 2 --partitions 3 --zookeeper hbp001:2181 2.增加partition ./kafka-topics.sh --zookeeper node01:2181 --alter --topic t_cdr --partitions 10 3.查看所有topic列表 4.查看指定topic信息 ./kafka-topics.sh --zookeeper hbp201:2181 --describe --topic t_cdr 5.控制台向topic生产数据 ./kafka-console-producer.sh --broker-list node86:9092 --topic t_cdr 6.控制台消费topic的数据 ./kafka-console-consumer.sh -zookeeper hdh247:2181 --from-beginning --topic fieldcompact 7.查看topic某分区偏移量最大(小)值 ./kafka-run-class.sh kafka.tools.GetOffsetShell --topic hive-mdatabase-hostsltable -

kafka集群

旧城冷巷雨未停 提交于 2019-12-02 17:57:24
1、 kafka介绍 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。 2、 kafka的特性 Kafka 是一种高吞吐量的分布式发布订阅消息系统,有如下特性: 通过磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。 持久性:使用文件性存储,日志文件存储消息,需要写入硬盘,采用达到一定阈值才写入硬盘,从而较少磁盘I/O,如果突然宕机数据会丢失 高吞吐量 :即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。 支持通过Kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 3、 kafka的体系架构 如上图所示,一个典型的Kafka体系架构包括若干Producer(可以是服务器日志,业务数据,页面前端产生的page view等等)

latent dirichlet allocation

可紊 提交于 2019-12-02 12:41:45
1.Dirichlet-Multinomial共轭 2.LDA=PLSA+bayes 3.训练方法有gibbs sampling(吉布斯采样)和variation inference-EM算法(变分推断-EM算法) 4.LDA将document-term矩阵分解成topic-term矩阵和document-topic矩阵 来源: https://www.cnblogs.com/pandas-blue/p/11745612.html

Kafka入门实践

↘锁芯ラ 提交于 2019-12-02 12:16:15
1.Apache Kafka官网介绍 http://kafka.apache.org 发布 & 订阅: 类似于一个消息系统,读写流式的数据. 处理: 编写可扩展的流处理应用程序,用于实时事件响应的场景。 存储: 安全的将流式的数据存储在一个分布式,有副本备份,容错的集群。 Kafka@用于构建实时的数据管道和流式的app.它可以水平扩展,高可用,速度快,并且已经运用在数千家公司的生产环境。 2.CDH Kafka官网介绍 https://docs.cloudera.com/documentation/kafka/latest/topics/kafka.html 3.生产如何选择版本 生产上绝大部分是CDH来构建企业级大数据平台,那么Kafka属于需要自定义部署《CDK部署课程》。 故企业里现在使用CDH5.15.1版本,那么默认zookeeper的版本即为zookeeper-3.4.5-cdh5.15.1, 这是固定的,无法改变。 那么Kafka版本如何选择呢?一般我们选择,当前的CDH官网的Kafka安装包最新版本即可。 当然我司经典版本是选择[0.10.2.0+kafka2.2.0+110],主要是历史时间原因+Spark Streaming对接Kafka的起始版本0.10。 CDH Kafka: wget http://archive.cloudera.com/kafka

Go语言操作NoSql

心已入冬 提交于 2019-12-02 10:57:30
NSQ平台 NSQ是目前比较流行的一个分布式的消息队列,本文主要介绍了NSQ及Go语言如何操作NSQ。 NSQ NSQ介绍 NSQ 是Go语言编写的一个开源的实时分布式内存消息队列,其性能十分优异。 NSQ的优势有以下优势: NSQ提倡分布式和分散的拓扑,没有单点故障,支持容错和高可用性,并提供可靠的消息交付保证 NSQ支持横向扩展,没有任何集中式代理。 NSQ易于配置和部署,并且内置了管理界面。 NSQ的应用场景 通常来说,消息队列都适用以下场景。 异步处理 参照下图利用消息队列把业务流程中的非关键流程异步化,从而显著降低业务请求的响应时间。 应用解耦 通过使用消息队列将不同的业务逻辑解耦,降低系统间的耦合,提高系统的健壮性。后续有其他业务要使用订单数据可直接订阅消息队列,提高系统的灵活性。 流量削峰 类似秒杀(大秒)等场景下,某一时间可能会产生大量的请求,使用消息队列能够为后端处理请求提供一定的缓冲区,保证后端服务的稳定性。 安装 官方下载页面 根据自己的平台下载并解压即可。 NSQ组件 nsqd nsqd是一个守护进程,它接收、排队并向客户端发送消息。 启动 nsqd ,指定 -broadcast-address=127.0.0.1 来配置广播地址 ./nsqd -broadcast-address=127.0.0.1 如果是在搭配 nsqlookupd

Kafka简单使用

一曲冷凌霜 提交于 2019-12-02 08:16:35
package com.hgc.center.accounts.test; import java.util.Collections; import java.util.Properties; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.kafka.clients.consumer.ConsumerRecord; import org.apache.kafka.clients.consumer.ConsumerRecords; import org.apache.kafka.clients.consumer.KafkaConsumer; import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.ProducerConfig; import org.apache.kafka.clients.producer.ProducerRecord; import org.apache.kafka.common.serialization.StringDeserializer; import org.apache.kafka.common

kafka配置参数详解

二次信任 提交于 2019-12-02 06:28:25
Broker Configs Property Default Description broker.id 每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任意你喜欢的数字作为id,只要id是唯一的即可。 log.dirs /tmp/kafka-logs kafka存放数据的路径。这个路径并不是唯一的,可以是多个,路径之间只需要使用逗号分隔即可;每当创建新partition时,都会选择在包含最少partitions的路径下进行。 port 6667 server接受客户端连接的端口 zookeeper.connect null ZooKeeper连接字符串的格式为:hostname:port,此处hostname和port分别是ZooKeeper集群中某个节点的host和port;为了当某个host宕掉之后你能通过其他ZooKeeper节点进行连接,你可以按照一下方式制定多个hosts: hostname1:port1, hostname2:port2, hostname3:port3. ZooKeeper 允许你增加一个“chroot”路径,将集群中所有kafka数据存放在特定的路径下

Kakfa相关

五迷三道 提交于 2019-12-02 06:13:58
Kakfa相关 一、基础配置文件(14个) 1.1、connect-console-sink.properties 1.2、connect-console-source.properties 1.3、onnect-distributed.properties 1.4、connect-file-sink.properties 1.5、connect-file-source.properties 1.6、connect-log4j.properties 1.7、connect-standalone.properties 1.8、consumer.properties 1.9、log4j.properties 1.10、producer.properties 1.11、server.properties 1.12、tools-log4j.properties 1.13、trogdor.conf 1.14、zookeeper.properties 二、客户端操作和常用API 三、常见问题及解决方案 一、基础配置文件(14个) 1.1、connect-console-sink.properties name=local-console-sink connector.class=org.apache.kafka.connect.file.FileStreamSinkConnector

Kafka 转载

泪湿孤枕 提交于 2019-12-02 06:07:49
转载自: https://fangyeqing.github.io/2016/10/28/kafka---%E4%BB%8B%E7%BB%8D/ kafka---介绍 kafka kafka 学习 流处理 消息系统 Kafka是一种分布式的消息系统。本文基于0.9.0版本,新版kafka加入了流处理组件kafka stream,最新的官方文档又自称分布式流处理平台。 概念 Broker Kafka的节点。kafka集群包含一个或多个broker Producer 消息的生产者。负责发布消息到Kafka broker Consumer 消息的消费者。每个consumer属于一个特定的consumer group(若不指定group id则属于默认的group)。使用consumer high level API时,同一topic的一条消息只能被同一个consumer group内的一个consumer消费,但多个consumer group可同时消费这一消息。 Topic 消息主题。例如pv日志、click日志、转化日志都可以作为topic。 Partition topic物理上的分组。每个topic包含一个或多个partition,创建topic时可指定parition数量。每个partition是一个有序的队列,对应于一个文件夹,该文件夹下存储该partition的数据和索引文件

消息中间之ActiveMQ

非 Y 不嫁゛ 提交于 2019-12-02 03:31:14
一、JMS (JAVA Message Service) 1、 JMS基本概念 JMS(JAVA Message Service,java消息服务)是java的消息服务,JMS的客户端之间可以通过JMS服务进行异步的消息传输。JMS(JAVA Message Service,java消息服务)API是一个消息服务的标准或者说是规范,允许应用程序组件基于JavaEE平台创建、发送、接收和读取消息。它使分布式通信耦合度更低,消息服务更加可靠以及异步性。 2、 JMS五种不同的消息正文格式 JMS定义了五种不同的消息正文格式,以及调用的消息类型,允许你发送并接收以一些不同形式的数据,提供现有消息格式的一些级别的兼容性。 StreamMessage -- Java原始值的数据流 MapMessage--一套名称-值对 TextMessage--一个字符串对象 ObjectMessage--一个序列化的 Java对象 BytesMessage--一个字节的数据流 3、 JMS两种消息模型 3.1 点到点(P2P)模型 使用 队列(Queue) 作为消息通信载体;满足 生产者与消费者模式 ,一条消息只能被一个消费者使用,未被消费的消息在队列中保留直到被消费或超时。比如:我们生产者发送100条消息的话,两个消费者来消费一般情况下两个消费者会按照消息发送的顺序各自消费一半(也就是你一个我一个的消费