storm

Twitter Storm集群搭建小结

萝らか妹 提交于 2019-12-01 12:30:33
最近自己尝试搭建了一下Twitter Storm的集群,参考了很多网友的博客,特别是 徐明明 的;这里只对自己搭建时的过程和所遇到的问题做一个小总结,方便查阅。 Storm是Twitter开源的一个实时计算框架,它需要依赖Zookeeper,ZeroMQ;同时还需要你的系统环境中有Java和Python。所以整个搭建步骤如下: 搭建Zookeeper集群。 在控制节点机[ Nimbus ]和工作节点机[ Supervisor ]上安装相同的环境(ZeroMQ,JZMQ,Java,Python等) 在控制节点机[ Nimbus ]和工作节点机 [ Supervisor ] 上安装Storm框架 配置Storm,通过storm.yaml文件 用命令 启动Storm (需要分别启动Nimbus、Supervisor、ui ) Zookeeper集群搭建 由于系统环境中已经有同事搭建好了Zookeeper的集群,所以我没自己手动实现过,就不做介绍了,直接给出 贱客的一篇博客 http://www.oschina.net/question/54100_10242 依赖环境的部署 这节主要介绍 ZeroMQ,JZMQ的部署(Java和Python的安装就不总结了,网上很多) 首先是ZeroMQ:Storm所需的版本是 ZeroMQ 2.1.7,你可以通过执行如下命令安装: wget http:

storm client command

时间秒杀一切 提交于 2019-12-01 12:30:19
最近在研究实时日志分析,storm确实不错,以下是命令参数: storm help Syntax: storm jar topology-jar-path class 运行jar包中类的主函数和指定的参数 Commands: activate storm activate topology-name 激活指定的任务 classpath storm classpath 打印storm的classpath deactivate storm deactivate topology-name 暂停storm的任务 dev-zookeeper storm dev-zookeeper 启动一个新的Zookeeper,这种情况只用于dev/test drpc storm drpc 启动一个DRPC进程 help jar storm jar topology-jar-path class 运行你的storm job,topology是类中的主函数 kill storm kill topology-name [-w wait-time-secs] 通过任务名称kill一个任务,storm会先使任务接口无效,使已经存在的消息被处理完成,然后会关闭任务并清除状态,你可以使用-w延迟几秒后关闭任务 list storm list 列出正在运行的topolofies和状态 localconfvalue

storm 原理简介及单机版安装指南

别说谁变了你拦得住时间么 提交于 2019-12-01 12:30:06
本文翻译自: https://github.com/nathanmarz/storm/wiki/Tutorial Storm是一个分布式的、高容错的实时计算系统。 Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语,使我们对数据进行批处理变的非常的简单和优美。同样,Storm也对数据的实时计算提供了简单Spout和Bolt原语。 Storm适用的场景: 1、流数据处理:Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中。 2、分布式RPC:由于Storm的处理组件都是分布式的,而且处理延迟都极低,所以可以Storm可以做为一个通用的分布式RPC框架来使用。 在这个教程里面我们将学习如何创建Topologies, 并且把topologies部署到storm的集群里面去。Java将是我们主要的示范语言, 个别例子会使用python以演示storm的多语言特性。 1、准备工作 这个教程使用 storm-starter 项目里面的例子。我推荐你们下载这个项目的代码并且跟着教程一起做。先读一下: 配置storm开发环境 和 新建一个strom项目 这两篇文章把你的机器设置好。 2、一个Storm集群的基本组件 storm的集群表面上看和hadoop的集群非常像

大数据技术栈

烈酒焚心 提交于 2019-12-01 06:58:49
大数据技术栈 Hadoop 历史: https://www.jikexueyuan.com/course/677_1.html?ss=1 1. Google大数据与Hadoop对比 功能 Google Hadoop 存储 GFS HDFS 计算 MapReduce MapReduce 查询 BigTable HBase 2. 大数据分类 2.1 根据数据类型分类 2.1.1 结构化数据 能够用数据或统一的结构加以表示,人们称之为结构化数据,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。 2.1.2 半结构化数据 所谓半结构化数据,就是介于完全结构化数据(如关系型数据库,面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。 2.1.3 非结构化数据 非结构化数据库是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。 参考链接: https://zhidao.baidu.com/question/589302455243618045.html 2.2 根据处理时间跨度要求分类 2.2

JStorm:概念与编程模型

痴心易碎 提交于 2019-12-01 06:58:49
1、集群架构 JStorm从设计的角度,就是一个典型的调度系统,简单集群的架构如下图所示,其中Nimbus可增加一个备节点,多个Supervisor节点组成任务执行集群。 1.1、Nimbus Nimbus是作为整个集群的调度器角色,负责分发topology代码、分配任务,监控集群运行状态等,其主要通过ZK与supervisor交互。可以和Supervisor运行在同一物理机上,JStorm中Nimbus可采用主从备份,支持热切。 https://www.jianshu.com/p/36394f897d36 https://yq.aliyun.com/articles/709401 来源: https://www.cnblogs.com/zhangww/p/11665546.html

Storm Cluster安装

百般思念 提交于 2019-12-01 02:53:35
Storm Cluster安装 @[安装|storm] 官方文档:设置storm cluster ####1. 上传storm安装包到服务器 在120,121,122,123四台机器的 /apps/ 目录下安装 apache-storm-0.9.1-incubating ####2. 安装Zookeeper 由于121,123,124上已有Zookeeper,所以不安装Zookeeper了 ####3. 安装Java和Python Java1.7 Python2.6.6 ####4. 解压下载的storm release到Nimbus和worker机器   Storm下载 ####5. 修改conf/storm.yaml配置文件 storm.zookeeper.servers : zookeeper cluster的主机列表 storm.zookeeper.servers: - "10.0.8.121" - "10.0.8.123" - "10.0.8.124" # 若修改了zookeeper的默认端口,需配置storm.zookeeper.port参数: storm.zookeeper.port: 2181 storm.local.dir : 存储Nimbus和Supervisor守护进程的状态量 storm.local.dir: "/apps/apache-storm-0.9

Storm SQL 集成

被刻印的时光 ゝ 提交于 2019-11-30 22:58:36
Storm SQL 集成允许用户在 Storm 流式数据中运行 SQL 查询。在流式分析中,SQL 接口不仅会加快开发周期,而且开辟了统一批处理 Apache Hive 和实时流式数据处理的机会。 StormSQL 会将 SQL 查询高水准的编译为 Trident topologies 并且在 Storm 集群上允许他们。这篇文章将给用户介绍如何使用 StormSQL。如果有人对 StormSQL 的设计和实现的细节感兴趣,请参考 这里 使用 允许 storm sql 命令编译 SQL 语句为 Trident topology,并且提交到 Storm 集群。 1 $ bin/storm sql <sql-file> <topo-name> 这里 sql-file 包含需要执行的 SQL 语句, topo-name 是提交的 topology 的名字。 支持的功能 在目前的版本库(1.0.1)中,支持以下功能: 流处理读取及写入外部数据源 过滤 tuples 预测(Projections) 指定外部数据源 StormSQL 数据是由外部表的形式表现的,用户可以使用 CREATE EXTERNAL TABLE 语句指定数据源。 CREATE EXTERNAL TABLE 的语法严格遵循 Hive Data Definition Language 中的定义。 12345678

Storm SQL 集成

青春壹個敷衍的年華 提交于 2019-11-30 22:17:11
Storm SQL 集成允许用户在 Storm 流式数据中运行 SQL 查询。在流式分析中,SQL 接口不仅会加快开发周期,而且开辟了统一批处理 Apache Hive 和实时流式数据处理的机会。 StormSQL 会将 SQL 查询高水准的编译为 Trident topologies 并且在 Storm 集群上允许他们。这篇文章将给用户介绍如何使用 StormSQL。如果有人对 StormSQL 的设计和实现的细节感兴趣,请参考 这里 使用 允许 storm sql 命令编译 SQL 语句为 Trident topology,并且提交到 Storm 集群。 1 $ bin/storm sql <sql-file> <topo-name> 这里 sql-file 包含需要执行的 SQL 语句, topo-name 是提交的 topology 的名字。 支持的功能 在目前的版本库(1.0.1)中,支持以下功能: 流处理读取及写入外部数据源 过滤 tuples 预测(Projections) 指定外部数据源 StormSQL 数据是由外部表的形式表现的,用户可以使用 CREATE EXTERNAL TABLE 语句指定数据源。 CREATE EXTERNAL TABLE 的语法严格遵循 Hive Data Definition Language 中的定义。 12345678

Storm SQL 集成

眉间皱痕 提交于 2019-11-30 21:37:22
Storm SQL 集成允许用户在 Storm 流式数据中运行 SQL 查询。在流式分析中,SQL 接口不仅会加快开发周期,而且开辟了统一批处理 Apache Hive 和实时流式数据处理的机会。 StormSQL 会将 SQL 查询高水准的编译为 Trident topologies 并且在 Storm 集群上允许他们。这篇文章将给用户介绍如何使用 StormSQL。如果有人对 StormSQL 的设计和实现的细节感兴趣,请参考 这里 使用 允许 storm sql 命令编译 SQL 语句为 Trident topology,并且提交到 Storm 集群。 1 $ bin/storm sql <sql-file> <topo-name> 这里 sql-file 包含需要执行的 SQL 语句, topo-name 是提交的 topology 的名字。 支持的功能 在目前的版本库(1.0.1)中,支持以下功能: 流处理读取及写入外部数据源 过滤 tuples 预测(Projections) 指定外部数据源 StormSQL 数据是由外部表的形式表现的,用户可以使用 CREATE EXTERNAL TABLE 语句指定数据源。 CREATE EXTERNAL TABLE 的语法严格遵循 Hive Data Definition Language 中的定义。 12345678

Storm SQL 集成

人走茶凉 提交于 2019-11-30 21:36:01
Storm SQL 集成允许用户在 Storm 流式数据中运行 SQL 查询。在流式分析中,SQL 接口不仅会加快开发周期,而且开辟了统一批处理 Apache Hive 和实时流式数据处理的机会。 StormSQL 会将 SQL 查询高水准的编译为 Trident topologies 并且在 Storm 集群上允许他们。这篇文章将给用户介绍如何使用 StormSQL。如果有人对 StormSQL 的设计和实现的细节感兴趣,请参考 这里 使用 允许 storm sql 命令编译 SQL 语句为 Trident topology,并且提交到 Storm 集群。 1 $ bin/storm sql <sql-file> <topo-name> 这里 sql-file 包含需要执行的 SQL 语句, topo-name 是提交的 topology 的名字。 支持的功能 在目前的版本库(1.0.1)中,支持以下功能: 流处理读取及写入外部数据源 过滤 tuples 预测(Projections) 指定外部数据源 StormSQL 数据是由外部表的形式表现的,用户可以使用 CREATE EXTERNAL TABLE 语句指定数据源。 CREATE EXTERNAL TABLE 的语法严格遵循 Hive Data Definition Language 中的定义。 12345678