storm | 易学教程

Storm Transaction 原理+实战

阅读更多关于 Storm Transaction 原理+实战

Storm guarantees data processing by providing an at least once processing guarantee. The most common question asked about Storm is "Given that tuples can be replayed, how do you do things like counting on top of Storm? Won't you overcount?" Storm 0.7.0 introduces transactional topologies, which enable you to get exactly once messaging semantics for pretty much any computation. So you can do things like counting in a fully-accurate, scalable, and fault-tolerant way. Storm默认的reliable特性支持 at least once processing guarantee. 这个在某些场景下明显是不够的, 比如计数, 不断的replay必然导致计数不准, 那么需要支持 exactly once semantics.

Storm整合Kafka Java API源码

阅读更多关于 Storm整合Kafka Java API源码

1.Maven项目的pom.xml源码如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.yg</groupId> <artifactId>storm</artifactId> <version>0.0.1-SNAPSHOT</version> <packaging>jar</packaging> <name>storm</name> <url>http://maven.apache.org</url> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> </properties> <dependencies> <dependency> <groupId>org.apache.storm</groupId>

Linux虚拟机-使用命令行管理虚拟机---KVM一些常用的命令

阅读更多关于 Linux虚拟机-使用命令行管理虚拟机---KVM一些常用的命令

virsh是kvm虚拟机常用的管理工具，以下是一些常用的命令。 1、查看在运行的虚拟机 virsh list 2、查看创建的所有虚拟机 virsh list --all 3、启动虚拟机 virsh start storm storm是虚拟机的domain名称，下同。 4、挂起虚拟机 virsh suspend storm 5、恢复被挂起的虚拟机 virsh resume storm 6、开机启动虚拟机，即在虚拟机服务（libvirt）启动的时候，就启动虚拟机。 virsh autostart storm 7、关闭开机启动虚拟机 virsh auto start --disable storm 8、关闭虚拟机（需要ACPID服务的支持，ACPI是Advanced Configuration and PowerInterface缩写，高级配置和电源管理接口） virsh shutdown storm 9、强制关闭虚拟机，这种方式是从virsh list列表中将虚拟机删除，仍然可以start起来 virsh destory storm 10、启动默认的网络 virsh net-start default 11、自启动默认网络 virsh net-autostart default 12、彻底删除虚拟机步骤 1）关闭虚拟机：virsh destroy storm 2）删除定义：virsh

大数据笔记

阅读更多关于大数据笔记

1.Hadoop是什么？为什么要使用Hadoop？平常如何使用Hadoop完成工作？ Hadoop是一个大数据开源框架。The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. The project includes these modules: Hadoop Common : The common utilities that support the other Hadoop modules. Hadoop Distributed File System (HDFS™) : A distributed file system that provides high-throughput access to application data. Hadoop YARN

Spark 系列（十四）—— Spark Streaming 基本操作

阅读更多关于 Spark 系列（十四）—— Spark Streaming 基本操作

一、案例引入这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>2.4.3</version> </dependency> import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} object NetworkWordCount { def main(args: Array[String]) { /*指定时间间隔为 5s*/ val sparkConf = new SparkConf().setAppName("NetworkWordCount").setMaster("local[2]") val ssc = new StreamingContext(sparkConf, Seconds(5)) /*创建文本输入流,并进行词频统计*/ val lines = ssc.socketTextStream("hadoop001", 9999) lines.flatMap(_.split(" "))

storm--基础面试题2

阅读更多关于 storm--基础面试题2

1.提高storm并发度？并行度就是多线程，主要是调整三个实体 1.worker进程 2.exectors（线程） 3.Task（线程) 在worker下可以可以采用多线程的方式运行程序。task是运行在exector里面的 worker运行在从节点里面,从节点可以启动多个worker。灰色的是exectors.一个work下多个exector。exector下可以运行一个task也可以运行两个task.task是最小的处理单元。spout和bolt都是运行在task之上。一个worker进程执行的是一个topo的子集。一个worker进程会启动1…n个executor线程来执行一个topo的component 一个运行topo就是由集群多台物理机上的多个worker进程组成。 executor是一个被worker进程启动的单独线程,每个executor只会运行一个topo的一个component. task是spout或者bolt代码的最小执行单元。 ack会占用一个task。 supervisor节点上可以运行多个worker进程，一个进程可以启动多个线程的，所以我们可以在worker多个executor，在executor中运行task。默认情况下task的数目等于executor线程数目，即1个executor线程只运行1个task。 worker --默认是1个

119 Storm的并发机制

阅读更多关于 119 Storm的并发机制

概念 Workers (JVMs) : 在一个物理节点上可以运行一个或多个独立的 JVM 进程。一个 Topology 可以包含一个或多个 worker (并行的跑在不同的物理机上), 所以 worker process 就是执行一个 topology 的子集, 并且 worker 只能对应于一个 topology 。 Executors (threads) : 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks。但一般默认每个executor只执行一个task。一个worker可以包含一个或多个executor, 每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集, 同时一个executor只能对应于一个component。 Tasks(bolt/spout instances) ：Task就是具体的处理逻辑对象，每一个 Spout 和 Bolt 会被当作很多 task 在整个集群里面执行。每一个 task 对应到一个线程，而 stream grouping 则是定义怎么从一堆task发射 tuple 到另外一堆 task 。你可以调用 TopologyBuilder.setSpout 和 TopBuilder.setBolt

109 Storm常用操作命令

阅读更多关于 109 Storm常用操作命令

有许多简单且有用的命令可以用来管理拓扑，它们可以提交、杀死、禁用、再平衡拓扑。提交任务命令格式： storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】 bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount 杀死任务命令格式： storm kill 【拓扑名称】 -w 10（执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间） storm kill topology-name -w 10 停用任务命令格式： storm deactivte 【拓扑名称】 storm deactivte topology-name 我们能够挂起或停用运行中的拓扑。当停用拓扑时，所有已分发的元组都会得到处理，但是spouts的nextTuple方法不会被调用。销毁一个拓扑，可以使用kill命令。它会以一种安全的方式销毁一个拓扑，首先停用拓扑，在等待拓扑消息的时间段内允许拓扑完成当前的数据流。启用任务命令格式： storm activate【拓扑名称】 storm activate topology-name 重新部署任务命令格式：storm rebalance 【拓扑名称】 storm

110 Storm集群的进程及日志熟悉

阅读更多关于 110 Storm集群的进程及日志熟悉

1、部署成功之后，启动storm集群。依次启动集群的各种角色 2、查看nimbus的日志信息在nimbus的服务器上 cd /export/servers/storm/logs tail -100f /export/servers/storm/logs/nimbus.log 3、查看ui运行日志信息在ui的服务器上，一般和nimbus一个服务器 cd /export/servers/storm/logs tail -100f /export/servers/storm/logs/ui.log 4、查看supervisor运行日志信息在supervisor服务上 cd /export/servers/storm/logs tail -100f /export/servers/storm/logs/supervisor.log 5、查看supervisor上worker运行日志信息在supervisor服务上 cd /export/servers/storm/logs tail -100f /export/servers/storm/logs/worker-6702.log 来源： https://blog.csdn.net/qq_20042935/article/details/99309540

Installation Steps of LOG Storm Free Virtual SIEM Appliance

阅读更多关于 Installation Steps of LOG Storm Free Virtual SIEM Appliance

I was reading the Top 47 Log Management Tools from ProfitBricks’ blog. During quick scanning the key features and cost, I decided to give LOG Storm a try. This post is the recording steps for installation and basic configuration of this product. Key Features: In-depth threat analysis Flexible deployment options Intuitive graphical user interface Incident response, forensics, and discovery Built-in support for 1,000+ devices Simple device integration tool Reporting packs for major regulatory compliance standards Master console for centralized log management MetaRules Correlation Cost: LOG Storm

订阅 storm