storm | 易学教程

#研发解决方案介绍#Recsys-Evaluate（推荐评测）

阅读更多关于 #研发解决方案介绍#Recsys-Evaluate（推荐评测）

郑昀基于刘金鑫文档最后更新于2014/12/1 关键词： recsys 、推荐评测、Evaluation of Recommender System、piwik、flume、kafka、storm、redis、mysql 本文档适用人员：研发推荐系统可不仅仅是围着推荐算法打转先明确一下，我们属于工业领域。很多在学术论文里行之有效的新特奇算法，在工业界是行不通的。当年我们做语义聚合时，分词、聚类、相似性计算、实体词识别、情感分析等领域最终还都采用了工业界十几年前乃至于几十年前就流行的成熟算法。如果算法不能决定命运，那什么是关键呢？算法+规则库+人工干预（整理语料、标识、调参数等），大都是脏活儿累活儿。或者叫，特征+算法+人工干预，用特征缩小数据范围或降维。我在2009年曾经写道：在语义的世界里，可以近似地说：万事万物都是特征提取。你只要找到特征，事情就好办。…… ……你期望毕其功于一役吗？自然语言处理的真实应用里是很难有什么场景找到一个通吃特征的。都是一层一层特征叠加的。一层特征去掉一部分垃圾数据。如此反复，终成正果。注意方法论。梁斌在2012年微博说道：统计粗且糙，乃大锤。规则细而精，乃小锤。先大场后细棋。规则库怎么来的？得建设一些方便观测的外围系统，才能发现特征、建立规则、调整参数、观察效果。所以与此类似，做了推荐服务后

【Storm】Trident API和概念(Operation类)

阅读更多关于【Storm】Trident API和概念(Operation类)

一、Trident Spout ITridentSpout：是最通用的spout，可以支持事务或者不透明事务定义； IBatchSpout：一个非事务spout； IPartitionedTridentSpout：分区事务spout，从数据源（kafka集群）读分区数据； IOpaquePartitionedTridentSpout：不透明分区事务spout，从数据源读分区数据； 1、ITridentSpout （1）ITridentSpout<T> 接口类，有2个内部接口类 BatchCoordinator 和 Emitter ，4个方法（2）BatchCoordinator<X> 接口类，有4个方法（3）Emitter<X>接口类，有3个方法 2、IBatchSpout IBatchSpout接口，FixedBatchSpout类实现了IBatchSpout接口。IBatchSpout有6个方法； 3、IPartitionedTridentSpout （1）IPartitionedTridentSpout<Partitions,Partition extends ISpoutPartition ,T>，拥有2个类和4个方法（2） IPartitionedTridentSpout.Coordinator < Partitions >， Partitions 是自定义的类；

大数据实战项目必备技能三：storm

阅读更多关于大数据实战项目必备技能三：storm

导读： Storm是一个分布式计算框架，主要使用Clojure与Java语言编写，最初是由Nathan Marz带领Backtype公司团队创建，在Backtype公司被Twitter公司收购后进行开源。最初的版本是在2011年9月17日发行，版本号0.5.0。 2013年9月，Apache基金会开始接管并孵化Storm项目。Apache Storm是在Eclipse Public License下进行开发的，它提供给大多数企业使用。经过1年多时间，2014年9月，Storm项目成为Apache的顶级项目。目前，Storm的最新版本1.1.0。 Storm是一个免费开源的分布式实时计算系统。Storm能轻松可靠地处理×××的数据流，就像Hadoop对数据进行批处理； Storm与Hadoop的区别 Storm用于实时计算，Hadoop用于离线计算。 Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批处理。 Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。 Storm与Hadoop的编程模型相似 Storm hadoop 角色 Nimbus JobTracker Supervisor TaskTracker Worker Child 应用名称 Topology Job 编程接口 Spout/Bolt Mapper

六、Storm的高级原语之Transactional Topology

阅读更多关于六、Storm的高级原语之Transactional Topology

1、什么是Transactional Topology？ ○ 是一个每个tuple仅被处理一次的框架 ○ 由Storm0.7引入，于Storm0.9被弃用，被triden取而代之 ○ 底层依靠spout\bolt\topology\stream抽象的一个特性 2、Transactional Topology设计思路 ○ 一次只处理一次tuple 基于Storm处理tuple失败时会重发(replay)，如何确保replay的记录不被重复记录，换句话说就是如何保证tuple仅被处理一次，这就依赖于一个称作强顺序性的思想。强顺序性：每个tuple与一个transaction id相关联，transaction id实际就是一个数字，每一个tuple都有一个按照顺序的transaction id（例如：tuple1的transaction id 为 1,tuple2的transaction id 为 2,...以此类推），只有当前的tuple处理并存储完毕，下一个tuple（处于等待状态）才能进行存储， tuple被存储时连同transaction id一并存储，此时考虑两种情况： tuple处理失败时：重新发送一个和原来一模一样的transaction id tuple处理成功时：发送的transaction id会和存储的transaction id对比

Storm入门第五章一致性事务

阅读更多关于 Storm入门第五章一致性事务

第五章一致性事务 Storm是一个分布式的流处理系统，利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错，则可以被重传，但是如何保证出错的tuple只被处理一次呢？Storm提供了一套事务性组件Transaction Topology，用来解决这个问题。 Transactional Topology目前已经不再维护，由Trident来实现事务性topology，但是原理相同。 5.1一致性事务的设计 Storm如何实现即对tuple并行处理，又保证事务性。本节从简单的事务性实现方法入手，逐步引出Transactional Topology的原理。 5.1.1 简单设计一：强顺序流保证tuple只被处理一次，最简单的方法就是将tuple流变成强顺序的，并且每次只处理一个tuple。从1开始，给每个tuple都顺序加上一个id。在处理tuple的时候，将处理成功的tuple id和计算结果存在数据库中。下一个tuple到来的时候，将其id与数据库中的id做比较。如果相同，则说明这个tuple已经被成功处理过了，忽略它；如果不同，根据强顺序性，说明这个tuple没有被处理过，将它的id及计算结果更新到数据库中。以统计消息总数为例。每来一个tuple，如果数据库中存储的id 与当前tuple id不同，则数据库中的消息总数加1

数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

阅读更多关于数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术语，本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取的数据，或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架：仅批处理框架： Apache Hadoop 仅流处理框架： Apache Storm Apache Samza 混合框架： Apache Spark Apache Flink 大数据处理框架是什么？处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。例如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使用。例如另一个框架Apache Spark可以纳入Hadoop并取代MapReduce

windows 安装 storm 及 eclipse 调试 TopN 实例

阅读更多关于 windows 安装 storm 及 eclipse 调试 TopN 实例

一：安装JDK 下载地址：地址一地址二配置 Java 环境变量 JAVA_HOME、Path、CLASSPATH三个值分别为（按照自己安装状况设置，此处供参考）： D:\java\jdk1.8 %JAVA_HOME%/bin;%JAVA_HOME%/jre/bin .;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar (要加.表示当前路径) 二：安装 Python 这是为了测试安装效果，我们将部署 storm-starter project 案例中word coun程序，用的是python写的 multi-lang bolt，使用python 2.7.11，安装路径在： C:\Python27\ 三：安装并运行ZooKeeper Download Apache Zookeeper 3.4.8 ，解压配置： > cd zookeeper-3.4.8 > copy conf\zoo_sample.cfg conf\zoo.cfg > .\bin\zkServer.cmd 四：安装Storm Storm的windows官方版还没有释放， here .下载，源码 here 下载。注意1：源码一定要用这个版本，否则启动会报各种错误，而这些错误和 jdk、python、zookeeper、eclipse 版本都无关。 http://dl

大数据storm应该怎么学？

阅读更多关于大数据storm应该怎么学？

帮助大家在业务上面快速使用 Storm ，相信学完之后可以直接面对生成环境的问题，解决问题，优化结构。项目使用Storm0.9.1+Kafka0.8.1.1+Zookeeper锁+Memcached+mysql架构，从集群搭建到集群连通性测试，从项目分析到数据库设计，从需求到Topology和Bolt的设计，从Coding到代码优化，从性能到安全性考虑，全方位系统的讲解一个Storm项目案例。先给大家介绍一下大数据学习步骤：一、入门安装storm集群，运行示例工程，明白什么是流处理，明白spout，bolt；手动实现Storm客户端API，自己编写场景实现。二、上手了解Storm的Bolt，spout运行过程，storm等进程启动过程，可以参照JStorm加深对Storm的理解；了解Storm周边，比如Kafka等组件。三、深入学习coljure；阅读storm代码；深入学习其他CEP产品。大数据storm需要掌握的技术如下： 1 、storm+kafka环境搭建-1 storm+kafka 环境搭建-1 ，storm0.9.1+kafka0.8.1 2 、storm+kafka环境搭建-2 storm+kafka 环境搭建-2,storm0.9.1+kafka0.8.1环境搭建 3 、storm+kafka环境搭建-3 4 、项目分析 storm 实战项目

#研发解决方案介绍#Recsys-Evaluate（推荐评测）

阅读更多关于 #研发解决方案介绍#Recsys-Evaluate（推荐评测）

关键词： recsys 、推荐评测、Evaluation of Recommender System、piwik、flume、kafka、storm、redis、mysql 本文档适用人员：研发推荐系统可不仅仅是围着推荐算法打转先明确一下，我们属于工业领域。很多在学术论文里行之有效的新特奇算法，在工业界是行不通的。当年我们做语义聚合时，分词、聚类、相似性计算、实体词识别、情感分析等领域最终还都采用了工业界十几年前乃至于几十年前就流行的成熟算法。如果算法不能决定命运，那什么是关键呢？算法+规则库+人工干预（整理语料、标识、调参数等），大都是脏活儿累活儿。或者叫，特征+算法+人工干预，用特征缩小数据范围或降维。我在2009年曾经写道：在语义的世界里，可以近似地说：万事万物都是特征提取。你只要找到特征，事情就好办。…… ……你期望毕其功于一役吗？自然语言处理的真实应用里是很难有什么场景找到一个通吃特征的。都是一层一层特征叠加的。一层特征去掉一部分垃圾数据。如此反复，终成正果。注意方法论。梁斌在2012年微博说道：统计粗且糙，乃大锤。规则细而精，乃小锤。先大场后细棋。规则库怎么来的？得建设一些方便观测的外围系统，才能发现特征、建立规则、调整参数、观察效果。所以与此类似，做了推荐服务后，就需要推荐效果评测了。推荐评测应用场景

大数据分布式集群搭建大全

阅读更多关于大数据分布式集群搭建大全

系统准备 Centos6.5 Windows10 相关软件包下载：链接：https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码：1tsf 说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “master”如果如果看见配置文件为spark1,一定要修改成master ;有些图片是后面添加的才出现主机名不一致但并不影响理解. 没有特别说明操作都是在 master 机器操作关闭防火墙关闭Linux和Windows的防火墙（防止机器之间应为防火墙拦截而不能连通） Windows： window系统: 控制面板 -> 系统和安全 ->Windows Defender 防火墙 -> 启用或关闭Windows Defender 防火墙 -> 关闭Windows Defender 防火墙 //一般只关闭”专用网络设置”的防火墙就行 Linux：停止防火墙: service iptables stop 启动防火墙: service iptables start 重启防火墙: service iptables restart 永久关闭防火墙: chkconfig iptables off 永久开启防火墙: chkconfig iptables no

订阅 storm