Apache Storm

美团点评基于 Flink 的实时数仓平台实践

混江龙づ霸主 提交于 2020-04-18 12:17:03
一、美团点评实时计算演进 美团点评实时计算演进历程 在 2016 年,美团点评就已经基于 Storm 实时计算引擎实现了初步的平台化。2017 年初,我们引入了 Spark Streaming 用于特定场景的支持,主要是在数据同步场景方面的尝试。在 2017 年底,美团点评实时计算平台引入了 Flink。相比于 Storm 和 Spark Streaming,Flink 在很多方面都具有优势。这个阶段我们进行了深度的平台化,主要关注点是安全、稳定和易用。从 19 年开始,我们致力于建设包括实时数仓、机器学习等特定场景的解决方案来为业务提供更好的支持。 实时计算平台 目前,美团点评的实时计算平台日活跃作业数量为万级,高峰时作业处理的消息量达到每秒 1.5 亿条,而机器规模也已经达到了几千台,并且有几千位用户正在使用实时计算服务。 实时计算平台架构 如下图所示的是美团点评实时计算平台的架构。 最底层是收集层,这一层负责收集用户的实时数据,包括 Binlog、后端服务日志以及 IoT 数据,经过日志收集团队和 DB 收集团队的处理,数据将会被收集到 Kafka 中。这些数据不只是参与实时计算,也会参与离线计算。 收集层之上是存储层,这一层除了使用 Kafka 做消息通道之外,还会基于 HDFS 做状态数据存储以及基于 HBase 做维度数据的存储。 存储层之上是引擎层,包括 Storm

域控安全-EventID 4662&Powershell将Schema下Objects的schemaIDGUID属性离线保存

≯℡__Kan透↙ 提交于 2020-04-17 07:12:43
【推荐阅读】微服务还能火多久?>>> 首先看一下EventID 4662的样子 0x01   什么情况下会产生该日志呢? 该日志出现在对Active Directory Object设置SACL时会出现 0x02  为什么要监控该日志呢? 1、非法人员入侵后的异常提权(更多安全审核监控建议详见 https://docs.microsoft.com/en-us/windows/security/threat-protection/auditing/appendix-a-security-monitoring-recommendations-for-many-audit-events ) 2、运维过程中的错误操作溯源 0x03  该日志中每一项的含义是什么? 详细的日志含义请参考微软官网( https://docs.microsoft.com/en-us/windows/security/threat-protection/auditing/event-4662 ) 0x04  需要重点关注哪些字段? Account Name:具体操作对象是谁? 个人认为高低权限帐号均应被监控,万一是低权限帐号被提权呢? Access Mask:具体的操作类型是什么? Note GUID:具体操作的对象是什么?这里我们打算展开说一下 0x05  GUID UUID的二进制编码因系统而异

Kafka 基础知识

萝らか妹 提交于 2020-04-15 16:33:51
【推荐阅读】微服务还能火多久?>>> 1. kafka如何做到高吞吐量的? 采用批处理 。如果一条一条的发消息,假如每条消息需要2毫秒,那么吞吐量不超过1000/2=500条/秒。如果采用批处理,假如此刻累积了100条消息,批处理需要等待一段时间比如8毫秒,加上发送一次的延时是2毫秒,那么一次批处理的时间是10毫秒。平均一条消息的耗时为10/100=0.1毫秒,那么此时的吞吐量为1000/0.1=10000条/秒。性能提升了近20倍。 2. 在kafka内部,是如何支撑起高吞吐/低延时的呢? 每次写入操作,都是先把数据写到操作系统的页缓存上(页缓存是在内存中分配的),然后由操作系统自行决定什么时候把页缓存上的数据写入到磁盘上。 Kafka 不必直接与底层的文件系统打交道。所有烦琐的 I/O 操作都交由操作系统来处理 Kafka 写入操作采用追加写入( append )的方式,避免了磁盘随机写操作。(磁盘的随机读写确实很慢,但是顺序读写却很快) 使用以 sendfile 为代表的零拷贝技术加强网络间的数据传输效率。 3. Topic、分区、副本、消费组、offset Topic: 发送到Kafka的每一条消息都有一个类别,用主题(Topic)来表示。通常,不同应用产生不同类型的数据,可以设置成不同的Topic。 分区: 每个Topic对应若干个分区,对于每个Topic

消息队列常见的几种使用场景介绍!

微笑、不失礼 提交于 2020-04-15 16:29:30
【推荐阅读】微服务还能火多久?>>> 一、简介 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能、高可用、可伸缩和最终一致性架构。使用较多的消息队列有ActiveMQ、RabbitMQ、ZeroMQ、Kafka、MetaMQ、RocketMQ。 二、消息队列应用场景 以下介绍消息队列在实际应用中常用的使用场景:异步处理,应用解耦,流量削锋和消息通讯四个场景。 1、异步处理 场景说明:用户注册后,需要发注册邮件和注册短信。传统的做法有两种:串行的方式和并行方式。 串行方式 :将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户。 并行方式 :将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成后,返回给客户端。与串行的差别是,并行的方式可以提高处理的时间。 假设三个业务节点每个使用50毫秒钟,不考虑网络等其他开销,则串行方式的时间是150毫秒,并行的时间可能是100毫秒。 因为CPU在单位时间内处理的请求数是一定的,假设CPU1秒内吞吐量是100次。则串行方式1秒内CPU可处理的请求量是7次(1000/150)。并行方式处理的请求量是10次(1000/100)。 小结 :如以上案例描述,传统的方式系统的性能(并发量,吞吐量,响应时间)会有瓶颈。如何解决这个问题呢?

消息队列常见的几种使用场景介绍!

ⅰ亾dé卋堺 提交于 2020-04-15 15:56:06
【推荐阅读】微服务还能火多久?>>> 一、简介 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能、高可用、可伸缩和最终一致性架构。使用较多的消息队列有ActiveMQ、RabbitMQ、ZeroMQ、Kafka、MetaMQ、RocketMQ。 二、消息队列应用场景 以下介绍消息队列在实际应用中常用的使用场景:异步处理,应用解耦,流量削锋和消息通讯四个场景。 1、异步处理 场景说明:用户注册后,需要发注册邮件和注册短信。传统的做法有两种:串行的方式和并行方式。 串行方式 :将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户。 并行方式 :将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成后,返回给客户端。与串行的差别是,并行的方式可以提高处理的时间。 假设三个业务节点每个使用50毫秒钟,不考虑网络等其他开销,则串行方式的时间是150毫秒,并行的时间可能是100毫秒。 因为CPU在单位时间内处理的请求数是一定的,假设CPU1秒内吞吐量是100次。则串行方式1秒内CPU可处理的请求量是7次(1000/150)。并行方式处理的请求量是10次(1000/100)。 小结 :如以上案例描述,传统的方式系统的性能(并发量,吞吐量,响应时间)会有瓶颈。如何解决这个问题呢?

每日一书《Storm分布式实时计算模式》PDF高清版

允我心安 提交于 2020-04-11 17:12:02
Storm是最流行的实时流计算框架之一,它提供了可容错分布式计算所要求的基本原语和保障机制,可满足大容量关键业务应用的需求。Storm不仅是- -种集成技术,也是一种数据流 和控制机制,已经成为很多大公司大数据处理平台的核心部分。 获取方法 本书特点 本书主要讲述Storm相关的Java开发,但其中的设计模式同样适用于其他编程语言。书中的小窍门、技术和实现方法对架构师、开发人员和运维人员都具有参考价值。Hadoop爱好者会发现,这是一本很好的Storm入门书籍,书中举例说明这两种系统如何优势互补,提供了将批处理运算迁移到实时分析的一种高效途径。本书提供了Storm应用于多个问题和行业的具体示例,这些例子应该能够在其他领域中举一反三, 解决在有限时间内处理大量数据的问题。同时,解决方案设计师、商业分析师也能从本书介绍的高层系统架构和技术中获益。 书本目录 部分内容截图 配置Storm集群 实时趋势分析 整合Druid进行金融分析 在Hadoop上部署Storm进行广告分析 来源: oschina 链接: https://my.oschina.net/u/4335287/blog/3229353

APT28_FancyBear_Sofacy资料

假装没事ソ 提交于 2020-04-06 13:51:10
Fancy Bear”、 “Sofacy”、 “Sednit” 、 “Tsar Team”、 “Pawn Storm” 或 “Srontium” 样本及IOC: https://github.com/mstfknn/malware-sample-library/tree/master/APT28%20FancyBear http://contagiodump.blogspot.com/2017/02/russian-apt-apt28-collection-of-samples.html https://community.blueliv.com/#!/s/58ad33e382df4109b5139139 https://github.com/fireeye/iocs/tree/master/APT28 malpedia报告:https://malpedia.caad.fkie.fraunhofer.de/actor/sofacy 2014年10月22日Operation Pawn Storm Sednit/Sofacy恶意软件、鱼叉式网络钓鱼邮件、网络钓鱼网站、恶意的iframe、针对Outlook Web Access用户 https://www.trendmicro.com/vinfo/us/security/news/cyber-attacks/pawn-storm

项目讲解1

落爺英雄遲暮 提交于 2020-04-06 08:01:44
1.数据采集到hadoop中; 2.数据在采集过程中,一部分丢给hdfs,一部分丢该实时的处理系统(kafka) kafka严格上说并不是消息队列,消息队列是符合 gms 规范的,有先后顺序的,kafka不保证顺序,严格意义上说kafka是一个分布式的消息缓存,队列是取一个少一个,而缓存是一直存在的 为什么要放到kafka呢,因为要对数据进行实时处理,会接一个storm,实时流式计算系统,hadoop是离线系统 把数据抽取出来想要的字段,例如上网时间,电话号码,上网的流量,请求的url等,然后存储到Hbase中 Hbase与HDFS有什么区别? Hbase会根据每一行的主键(rowkey)的字典顺序将数据进行排序,因此只要把行键设计的好,就可以提高查询效率 大量的数据在Hbase存储,在mysql、cracle要就存满了,为什么在Hbase可以存储下? Hbase天生就是分布式实现的,mysql是靠人为取分库分表,而Hbase对用户呈现就是一张表,但是这张表本质上的分布在多个服务器上管理的,这样的好处就是这个表可以无限的扩容,像细胞一样分裂表,存储变大后就会分裂出其他表。对用户来说是透明的扩容 Hbase有一个主服务器Master,从服务器管理分,一般从服务器和datanode放在一起 Hbase的业务需求比较简单 获取基站数据 把基站信信息放到hafka中

Flink基本原理及应用场景

最后都变了- 提交于 2020-03-21 03:05:13
3 月,跳不动了?>>> Flink简介 Apache Flink是一个开源的 分布式、高性能、高可用 的流处理框架。 主要有Java代码实现,支持scala和java API。 支持 实时流(stream)处理 和 批(batch)处理 ,批数据只是流数据的一个极限特例。 Flink原生支持了 迭代计算 、 内存管理 和 程序优化 。 Flink、Spark和Storm对比 Flink、Spark Streaming、Storm、Storm Trient都可以进行实时计算,但各有特点。 在大数据处理领域,批处理任务和流处理任务一般被认为是两种不同的任务,一个大数据框架一般会被设计为只能处理其中一种任务    *   例如Storm只支持流处理任务,而MapReduce、Spark只支持批处理任务。Spark Streaming是采用了一种micro-batch的架构,即把输入的数据流且分为细粒度的batch,并为每一个batch数据提交一个批处理的Spark任务,所以Spark Streaming本质上还是基于Spark批处理系统对流式数据进行处理,和Storm等完全流式的数据处理方式完全不同。   *  Flink通过灵活的执行引擎,能够同时支持批处理任务和流处理任务      在执行引擎这一层,流处理系统与批处理系统最大的不同在于节点间的数据传输方式。    

Kafka:大数据开发最火的核心技术

孤街浪徒 提交于 2020-03-20 09:45:09
3 月,跳不动了?>>> 大数据时代来临,如果你还不知道Kafka那你就真的out了!据统计,有三分之一的世界财富500强企业正在使用Kafka,包括所有TOP10旅游公司,7家TOP10银行,8家TOP10保险公司,9家TOP10电信公司等等。 LinkedIn,Microsoft和Netflix每天都用Kafka处理万亿级的信息。Kafka主要应用于实时信息流的大数据收集或者实时分析(或者两者兼有)。Kafka既可以为内存微服务提供持久性服务,也可以用于向复杂事件流系统和IoT/IFTTT式自动化系统反馈事件。 为什么是Kafka? Kafka常用于实时流数据结构的实时分析。由于Kafka是一种快速、可扩展、可持久和高容错的发布-订阅消息系统(publish-subscribe messaging system),所以Kafka对于一些Use Case(有大数据量和高响应需求)的支持远好于JMS、RabbitMQ和AMQP。相比于那些工具,Kafka支持更高的吞吐量,更高的稳定性和副本(replication)特性。这使得它比传统的MOM更加适合跟踪服务调用(可以跟踪每次调用)或跟踪IoT传感器数据。 Kafka可以与Flume/Flafka、Spark Streaming、Storm、HBase、Flink以及Spark配合使用,用于实时获取、分析和处理流数据