topic

LDA模型的封装

醉酒当歌 提交于 2020-01-24 01:06:51
最近一直在训练LDA模型,将LDA模型封装在一个脚本中,可以直接在终端传入参数进行LDA的训练和预测. 需要在同目录下准备一个stopwords(停用词典) #conding=utf-8 import codecs import os import re from os import mkdir from os . path import exists , isdir , abspath , join import gensim import jieba . posseg as pseg import yaml from gensim import corpora #1.数据处理工具 def data_util ( data , cut_flag = False , stopwords_file = './stopwords' ) : ''' 传入一条语料,对其进行处理,获取训练语料 :param data: 单行的语料 :param cut_flag: 是否分词,为True时,使用jieba进行分词处理 :param stopwords_file: 停用词文件 :return: list of words ''' stopwords_file = abspath ( stopwords_file ) if cut_flag : function_words = [ "d" ,

rabbitMQ队列使用及常用命令

房东的猫 提交于 2020-01-24 00:47:01
一、RabbitMQ常用命令 启动监控管理器: rabbitmq-plugins enable rabbitmq_management 关闭监控管理器: rabbitmq-plugins disable rabbitmq_management 启动rabbitmq: rabbitmq-service start 关闭rabbitmq: rabbitmq-service stop 查看所有的队列: rabbitmqctl list_queues 清除所有的队列: rabbitmqctl reset 关闭应用: rabbitmqctl stop_app 启动应用: rabbitmqctl start_app 用户和权限设置(后面用处) 添加用户: rabbitmqctl add_user username password 分配角色: rabbitmqctl set_user_tags username administrator 新增虚拟主机: rabbitmqctl add_vhost vhost_name 将新虚拟主机授权给新用户: rabbitmqctl set_permissions -p vhost_name username '.*' '.*' '.*' 角色说明 none 最小权限角色 management 管理员角色 policymaker 决策者

Kafka API操作

一曲冷凌霜 提交于 2020-01-23 21:48:25
文章目录 1.kafka生产者的api操作 2.kafka消费者的api操作 3.kafka分区的api操作 3.1随机分区 3.2hash分区 3.3轮询分区 首先导入maven依赖 < dependency > < groupId > org.apache.kafka </ groupId > < artifactId > kafka_2.11 </ artifactId > < version > 1.1.1 </ version > </ dependency > 然后将consumer.properties与producer.properties文件放在resources文件夹下,可以去自己机器拿,也可以copy下面的,目录结构如下 producer.properties # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. # The ASF licenses this file to You under

kafka介绍与搭建(单机版)

北城余情 提交于 2020-01-23 19:23:53
一、kafka介绍 1.1 主要功能 根据官网的介绍,ApacheKafka®是 一个分布式流媒体平台 ,它主要有3种功能:   1:It lets you publish and subscribe to streams of records.发布和订阅消息流,这个功能类似于消息队列,这也是kafka归类为消息队列框架的原因   2:It lets you store streams of records in a fault-tolerant way.以容错的方式记录消息流,kafka以文件的方式来存储消息流   3:It lets you process streams of records as they occur.可以再消息发布的时候进行处理 1.2 使用场景 1:Building real-time streaming data pipelines that reliably get data between systems or applications.在系统或应用程序之间构建可靠的用于传输实时数据的管道,消息队列功能 2:Building real-time streaming applications that transform or react to the streams of data。构建实时的流数据处理程序来变换或处理数据流,数据处理功能 1.3

初识中间件Kafka

烂漫一生 提交于 2020-01-23 10:25:53
初识中间件Kafka Author:SimplelWu 什么是消息中间件? 非底层操作系统软件,非业务应用软件,不是直接给最终用户使用的,不能直接给客户带来价值的软件统称为中间件 关注于数据的发送和接收,利用高效可靠的异步消息传递机制集成分布式系统。 什么是Kafka? Kafka是一种高吞吐量的分布式发布订阅消息系统,是一个分布式的、分区的、可靠的分布式日志存储服务。它通过一种独一无二的设计提供了一个消息系统的功能。 kafka官方: http://kafka.apache.org/ Kafka作为一个分布式的流平台,这到底意味着什么? 我们认为,一个流处理平台具有三个关键能力: 发布和订阅消息(流),在这方面,它类似于一个消息队列或企业消息系统。 以 容错 的方式存储消息(流)。 在消息流发生时处理它们。 什么是kakfa的优势? 它应用于2大类应用: 构建实时的流数据管道,可靠地获取系统和应用程序之间的数据。 构建实时流的应用程序,对数据流进行转换或反应。 kafka有四个核心API 应用程序使用 Producer API 发布消息到1个或多个topic(主题)。 应用程序使用 Consumer API 来订阅一个或多个topic,并处理产生的消息。 应用程序使用 Streams API 充当一个流处理器,从1个或多个topic消费输入流

Kafka压测— 搞垮kafka的方法

时光怂恿深爱的人放手 提交于 2020-01-23 00:12:04
作者:石文 时间:2018-10-29 分布式系统故障场景梳理方法: 场景梳理逻辑关系: 单点硬件故障→单点进程故障类型→集群影响→集群故障场景 第三方依赖故障→集群依赖关系→集群影响→集群故障场景 业务场景→集群负载/错误影响→集群故障场景 Kafka故障场景 Kafka故障的定义是什么? 故障场景 单点硬件故障→集群故障场景 第三方依赖故障→集群故障场景 业务场景→集群故障场景 Kafka压测 Kafka数据丢失: Kafka什么情况下一定会丢失数据? Kafka什么情况的一定不会丢失数据? Kafka数据写入降低百毫秒级? Kafka的Topic分片规模的设置与延迟的关系? 80%通用场景 + 20%业务特性 = 相对完善和通用的故障场景 要区分现象和原因,列举的是现象而非原因 chaosmonkey 第一版里面有一些破坏性的shell脚本可以用 节点故障 各个角色单独关闭至少一台机器,直至服务故障(线下) 各个角色同时关闭一台机器 任意一个交换机故障 单机资源:CPU、MEM、NET、DISK、IO、Ulimit 磁盘 磁盘空间写满 磁盘故障(只读) 磁盘IO饱和 节点故障,网络分区,丢包和慢速网络————目的是找出RabbitMQ集群丢失消息的方式和时间 第三方依赖:数据库、缓存、共享存储、上下游、DNS、LB、基础设施等 业务特性 集群Topic leader丢失

springboot 整合activemq

て烟熏妆下的殇ゞ 提交于 2020-01-22 00:52:52
1、配置连接信息 引入maven信息 <!-- 整合消息队列ActiveMQ --> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-activemq</artifactId> </dependency> <!-- 如果配置线程池则加入 --> <dependency> <groupId>org.messaginghub</groupId> <artifactId>pooled-jms</artifactId> </dependency> <!--消息队列连接池--> <dependency> <groupId>org.apache.activemq</groupId> <artifactId>activemq-pool</artifactId> <version>5.15.0</version> </dependency>    2、增加自定义配置 QueueConfig.java package cn.activemq; import org.apache.activemq.command.ActiveMQQueue; import org.apache.activemq.command.ActiveMQTopic; import org

十八、sun JPA理解及使用

删除回忆录丶 提交于 2020-01-20 20:25:35
1、JPA理解及实现: JPA(Java Persistence API)作为Java EE 5.0平台标准的ORM规范,将得到所有Java EE服务器的支持,是SUN在充分吸收现有ORM框架的基础上,得到了一个易于使用、伸缩性强的ORM规范。JPA通过JDK 5.0注解或XML描述对象-关系表的映射关系,并将运行期的实体对象持久化到数据库中。 JPA由EJB 3.0软件专家组开发,作为JSR-220实现的一部分。可以在Web应用、甚至桌面应用中使用。JPA的宗旨是为POJO提供持久化标准规范,由此可见,经过这几年的实践探索,能够脱离容器独立运行,方便开发和测试的理念已经深入人心了。 因为JPA是一个公开的规范,当前有不同的实现。Hibernate 3.2、TopLink 10.1.3以及OpenJpa都提供了对JPA的实现。 2. 具有ORM元数据的领域对象称为实体 (Entity),按JPA的规范,实体具备以下的条件: 1)必须使用javax.persistence.Entity注解或者在XML映射文件中有对应的元素; 2)必须具有一个不带参的构造函数,类不能声明为final,方法和需要持久化的属性也不能声明为final; 3)如果游离状的实体对象需要以值的方式进行传递,如通Session bean的远程业务接口传递,则必须实现Serializable接口; 4

高吞吐量的分布式发布订阅消息系统Kafka--spring-integration-kafka的应用

大城市里の小女人 提交于 2020-01-20 15:15:53
一、概述 Spring Integration Kafka 是基于 Apache Kafka 和 Spring Integration 来集成Kafka,对开发配置提供了方便。 二、配置 1、spring-kafka-consumer.xml <?xml version= "1.0" encoding= "UTF-8" ?> <beans xmlns= "http://www.springframework.org/schema/beans" xmlns:xsi= "http://www.w3.org/2001/XMLSchema-instance" xmlns: int = "http://www.springframework.org/schema/integration" xmlns: int -kafka= "http://www.springframework.org/schema/integration/kafka" xmlns:task= "http://www.springframework.org/schema/task" xsi:schemaLocation="http: //www.springframework.org/schema/integration/kafka http: //www.springframework.org/schema

kafka要点总结

ⅰ亾dé卋堺 提交于 2020-01-20 10:16:10
做一个 kafka 的要点总结,官网或者博客都有大量资料 目录 基础术语 副本机制 Kafka数据备份 Leader选举 ISR集合方法 少数服从多数方法 如果所有的ISR副本都失败了怎么办 Kafka数据commit ISR配置 宕机如何恢复 少部分副本宕机 全部副本宕机 Zookeeper协调服务 Zookeeper的watch机制 Kafka分区策略 RangeAssignor分区策略 RoundRobinAssignor分区策略 StickyAssignor分区策略 Kafka性能调优 Kafka版本区别 Apache Kafka是一种发布订阅消息系统,一类消息被广播给所有订阅了该主题的用户,它是一种分布式的,分区化的,提供数据冗余以及持久化的日志服务。 Kafka支持海量数据的高速读写,一般在公司用做海量数据总线,连接后续的hadoop组件等,形成海量数据流。 基础术语 topic: 订阅主题,一般指一类消息。每个topic分成多个partition(分区), 每个分区都是一个有序的不可变的记录序列,不断追加到结构化日志中(持久化)。分区中每个记录都分配了一个偏移量ID,顺序递增,它唯一地标识分区中的每个记录。 partition: 分区,每个主题有1个至多个分区 消费者 : 负责订阅消息,对象为KafkaConsumer ,客户端接口。 消费者组 :