topic | 易学教程

LDA模型的封装

阅读更多关于 LDA模型的封装

最近一直在训练LDA模型,将LDA模型封装在一个脚本中,可以直接在终端传入参数进行LDA的训练和预测. 需要在同目录下准备一个stopwords(停用词典) #conding=utf-8 import codecs import os import re from os import mkdir from os . path import exists , isdir , abspath , join import gensim import jieba . posseg as pseg import yaml from gensim import corpora #1.数据处理工具 def data_util ( data , cut_flag = False , stopwords_file = './stopwords' ) : ''' 传入一条语料,对其进行处理,获取训练语料 :param data: 单行的语料 :param cut_flag: 是否分词,为True时,使用jieba进行分词处理 :param stopwords_file: 停用词文件 :return: list of words ''' stopwords_file = abspath ( stopwords_file ) if cut_flag : function_words = [ "d" ,

rabbitMQ队列使用及常用命令

阅读更多关于 rabbitMQ队列使用及常用命令

一、RabbitMQ常用命令启动监控管理器： rabbitmq-plugins enable rabbitmq_management 关闭监控管理器： rabbitmq-plugins disable rabbitmq_management 启动rabbitmq： rabbitmq-service start 关闭rabbitmq： rabbitmq-service stop 查看所有的队列： rabbitmqctl list_queues 清除所有的队列： rabbitmqctl reset 关闭应用： rabbitmqctl stop_app 启动应用： rabbitmqctl start_app 用户和权限设置（后面用处）添加用户： rabbitmqctl add_user username password 分配角色： rabbitmqctl set_user_tags username administrator 新增虚拟主机： rabbitmqctl add_vhost vhost_name 将新虚拟主机授权给新用户： rabbitmqctl set_permissions -p vhost_name username '.*' '.*' '.*' 角色说明 none 最小权限角色 management 管理员角色 policymaker 决策者

Kafka API操作

阅读更多关于 Kafka API操作

文章目录 1.kafka生产者的api操作 2.kafka消费者的api操作 3.kafka分区的api操作 3.1随机分区 3.2hash分区 3.3轮询分区首先导入maven依赖 < dependency > < groupId > org.apache.kafka </ groupId > < artifactId > kafka_2.11 </ artifactId > < version > 1.1.1 </ version > </ dependency > 然后将consumer.properties与producer.properties文件放在resources文件夹下，可以去自己机器拿，也可以copy下面的，目录结构如下 producer.properties # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. # The ASF licenses this file to You under

kafka介绍与搭建(单机版)

阅读更多关于 kafka介绍与搭建(单机版)

一、kafka介绍 1.1 主要功能根据官网的介绍，ApacheKafka®是一个分布式流媒体平台，它主要有3种功能：　　1：It lets you publish and subscribe to streams of records.发布和订阅消息流，这个功能类似于消息队列，这也是kafka归类为消息队列框架的原因　　2：It lets you store streams of records in a fault-tolerant way.以容错的方式记录消息流，kafka以文件的方式来存储消息流　　3：It lets you process streams of records as they occur.可以再消息发布的时候进行处理 1.2 使用场景 1：Building real-time streaming data pipelines that reliably get data between systems or applications.在系统或应用程序之间构建可靠的用于传输实时数据的管道，消息队列功能 2：Building real-time streaming applications that transform or react to the streams of data。构建实时的流数据处理程序来变换或处理数据流，数据处理功能 1.3

初识中间件Kafka

阅读更多关于初识中间件Kafka

初识中间件Kafka Author：SimplelWu 什么是消息中间件？非底层操作系统软件，非业务应用软件，不是直接给最终用户使用的，不能直接给客户带来价值的软件统称为中间件关注于数据的发送和接收，利用高效可靠的异步消息传递机制集成分布式系统。什么是Kafka？ Kafka是一种高吞吐量的分布式发布订阅消息系统，是一个分布式的、分区的、可靠的分布式日志存储服务。它通过一种独一无二的设计提供了一个消息系统的功能。 kafka官方： http://kafka.apache.org/ Kafka作为一个分布式的流平台，这到底意味着什么？我们认为，一个流处理平台具有三个关键能力：发布和订阅消息（流），在这方面，它类似于一个消息队列或企业消息系统。以容错的方式存储消息（流）。在消息流发生时处理它们。什么是kakfa的优势? 它应用于2大类应用：构建实时的流数据管道，可靠地获取系统和应用程序之间的数据。构建实时流的应用程序，对数据流进行转换或反应。 kafka有四个核心API 应用程序使用 Producer API 发布消息到1个或多个topic（主题）。应用程序使用 Consumer API 来订阅一个或多个topic，并处理产生的消息。应用程序使用 Streams API 充当一个流处理器，从1个或多个topic消费输入流

Kafka压测— 搞垮kafka的方法

阅读更多关于 Kafka压测— 搞垮kafka的方法

作者：石文时间：2018-10-29 分布式系统故障场景梳理方法：场景梳理逻辑关系：单点硬件故障→单点进程故障类型→集群影响→集群故障场景第三方依赖故障→集群依赖关系→集群影响→集群故障场景业务场景→集群负载/错误影响→集群故障场景 Kafka故障场景 Kafka故障的定义是什么？故障场景单点硬件故障→集群故障场景第三方依赖故障→集群故障场景业务场景→集群故障场景 Kafka压测 Kafka数据丢失： Kafka什么情况下一定会丢失数据？ Kafka什么情况的一定不会丢失数据？ Kafka数据写入降低百毫秒级？ Kafka的Topic分片规模的设置与延迟的关系？ 80%通用场景 + 20%业务特性 = 相对完善和通用的故障场景要区分现象和原因，列举的是现象而非原因 chaosmonkey 第一版里面有一些破坏性的shell脚本可以用节点故障各个角色单独关闭至少一台机器，直至服务故障（线下）各个角色同时关闭一台机器任意一个交换机故障单机资源：CPU、MEM、NET、DISK、IO、Ulimit 磁盘磁盘空间写满磁盘故障（只读）磁盘IO饱和节点故障，网络分区，丢包和慢速网络————目的是找出RabbitMQ集群丢失消息的方式和时间第三方依赖：数据库、缓存、共享存储、上下游、DNS、LB、基础设施等业务特性集群Topic leader丢失

springboot 整合activemq

阅读更多关于 springboot 整合activemq

1、配置连接信息引入maven信息  <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-activemq</artifactId> </dependency>  <dependency> <groupId>org.messaginghub</groupId> <artifactId>pooled-jms</artifactId> </dependency>  <dependency> <groupId>org.apache.activemq</groupId> <artifactId>activemq-pool</artifactId> <version>5.15.0</version> </dependency> 　　 2、增加自定义配置 QueueConfig.java package cn.activemq; import org.apache.activemq.command.ActiveMQQueue; import org.apache.activemq.command.ActiveMQTopic; import org

十八、sun JPA理解及使用

阅读更多关于十八、sun JPA理解及使用

1、JPA理解及实现： JPA(Java Persistence API)作为Java EE 5.0平台标准的ORM规范，将得到所有Java EE服务器的支持,是SUN在充分吸收现有ORM框架的基础上，得到了一个易于使用、伸缩性强的ORM规范。JPA通过JDK 5.0注解或XML描述对象－关系表的映射关系，并将运行期的实体对象持久化到数据库中。 JPA由EJB 3.0软件专家组开发，作为JSR-220实现的一部分。可以在Web应用、甚至桌面应用中使用。JPA的宗旨是为POJO提供持久化标准规范，由此可见，经过这几年的实践探索，能够脱离容器独立运行，方便开发和测试的理念已经深入人心了。因为JPA是一个公开的规范，当前有不同的实现。Hibernate 3.2、TopLink 10.1.3以及OpenJpa都提供了对JPA的实现。 2. 具有ORM元数据的领域对象称为实体（Entity），按JPA的规范，实体具备以下的条件： 1）必须使用javax.persistence.Entity注解或者在XML映射文件中有对应的元素； 2）必须具有一个不带参的构造函数，类不能声明为final，方法和需要持久化的属性也不能声明为final； 3）如果游离状的实体对象需要以值的方式进行传递，如通Session bean的远程业务接口传递，则必须实现Serializable接口； 4

高吞吐量的分布式发布订阅消息系统Kafka--spring-integration-kafka的应用

阅读更多关于高吞吐量的分布式发布订阅消息系统Kafka--spring-integration-kafka的应用

一、概述 Spring Integration Kafka 是基于 Apache Kafka 和 Spring Integration 来集成Kafka，对开发配置提供了方便。二、配置 1、spring-kafka-consumer.xml <?xml version= "1.0" encoding= "UTF-8" ?> <beans xmlns= "http://www.springframework.org/schema/beans" xmlns:xsi= "http://www.w3.org/2001/XMLSchema-instance" xmlns: int = "http://www.springframework.org/schema/integration" xmlns: int -kafka= "http://www.springframework.org/schema/integration/kafka" xmlns:task= "http://www.springframework.org/schema/task" xsi:schemaLocation="http: //www.springframework.org/schema/integration/kafka http: //www.springframework.org/schema

kafka要点总结

阅读更多关于 kafka要点总结

做一个 kafka 的要点总结，官网或者博客都有大量资料目录基础术语副本机制 Kafka数据备份 Leader选举 ISR集合方法少数服从多数方法如果所有的ISR副本都失败了怎么办 Kafka数据commit ISR配置宕机如何恢复少部分副本宕机全部副本宕机 Zookeeper协调服务 Zookeeper的watch机制 Kafka分区策略 RangeAssignor分区策略 RoundRobinAssignor分区策略 StickyAssignor分区策略 Kafka性能调优 Kafka版本区别 Apache Kafka是一种发布订阅消息系统，一类消息被广播给所有订阅了该主题的用户，它是一种分布式的，分区化的，提供数据冗余以及持久化的日志服务。 Kafka支持海量数据的高速读写，一般在公司用做海量数据总线，连接后续的hadoop组件等，形成海量数据流。基础术语 topic: 订阅主题，一般指一类消息。每个topic分成多个partition(分区), 每个分区都是一个有序的不可变的记录序列，不断追加到结构化日志中（持久化）。分区中每个记录都分配了一个偏移量ID，顺序递增，它唯一地标识分区中的每个记录。 partition: 分区，每个主题有1个至多个分区消费者 : 负责订阅消息，对象为KafkaConsumer ，客户端接口。消费者组 :

订阅 topic