Apache Storm

第一天:什么是Flink、WordCount入门、Flink安装、并行度

扶醉桌前 提交于 2020-07-28 18:47:32
1. 初识 Flink 在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产 的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark ,基本上已经取代了 MapReduce 成为当前大数据处理的标准。但 对实时数据处理来说,Apache Spark 的 Spark-Streaming 还有性能改进的空间。对于 Spark-Streaming 的 流计算本质上还是批(微批)计算 ,Apache Flink 就是近年来在开源社区不断发展的技术中的能够同时支持 高吞吐 、 低延迟 、 高性能 的纯实时的分布式处理框架(主要贡献者是阿里,QPS可达30W+)。 Flink 是什么 1. Flink 的发展历史 在 2010 年至 2014 年间,由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合发 起名为 Stratosphere:Information Management on the Cloud 研究项目,该项目在当时的社区逐渐具有了一定的社区知名度。 2014 年 4 月,Stratosphere 代码被贡献给 Apache 软件基金会,成为 Apache 基金会孵化器项目。初期参与该项目的核心成员均是 Stratosphere 曾经的核心成员,之后团队的大部分创始成员离开学校,共同创办了一家名叫

常见的数据分析工具有哪些?

你说的曾经没有我的故事 提交于 2020-07-27 18:57:52
众所周知,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。它的含义十分广泛,并庞大复杂,需要有专门设计的硬件和软件工具来进行数据处理和分析。下面给大家推荐几款常见好用的 数据分析工具 ,以供参考选择。 Smartbi Smartb i是国内领先的BI厂商,产品定位于一站式大数据服务平台,对接各种业务数据库、数据仓库和大数据平台,进行加工处理、分析挖掘与可视化展现;满足各种数据分析应用需求,如大数据分析、自助探索分析、地图可视化、移动管理驾驶舱、指挥大屏幕、企业报表平台、数据挖掘等。Smartbi产品功能设计全面,企业单位只需要安装部署一次,就可以实现中国式复杂报表、自助BI、以及数据挖掘产品的使用,产品性能、易用性和安全性都不错,广泛应用于金融、政府、电信、企事业单位等领域。 Storm Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。 Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel. 据Hadoop厂商MapR

【最新】docker 安装elasticsearch + kibana步骤【第一篇_elasticsearch】

家住魔仙堡 提交于 2020-07-27 04:20:36
     最近在用docker 安装elasticsearch + kibana 遇到了很多坑,最后成功安装elasticsearch + kibana (6.8.1)版本    安装了一下午,现总结过程中遇到的各种坑,希望能帮助需要的朋友! 本文较长,要有耐心哦! 话不多说,博主阿里云服务器CentOS 7.6 第一步:安装docker 参考链接 https://www.cnblogs.com/yufeng218/p/8370670.html 第二步:docker 安装elasticsearch   大坑1 :博主安装了多个elasticsearch 版本,查找了很多资料,第一次安装elasticsearch 7.1.1版本,安装之后启动elasticsearch 后各种问题如下:   错误1:bootstrap checks failed [1]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144] [2]: the default discovery settings are unsuitable for production use; at least one of [discovery.seed_hosts, discover  

热乎乎的蚂蚁金服面经分享,offer已到手建议收藏(Java岗、附答案解析)

岁酱吖の 提交于 2020-07-25 14:02:05
1.幸运而匆忙的一面 一面完等了差不多半个月才突然接到二面面试官的电话。 一面可能是简历面,所以问题比较简单。 ArrayList和LinkedList区别? ArrayList 是一个可改变大小的数组。 当更多的元素加入到ArrayList中时,其大小将会动态地增长。内部的元素可以直接通过get与 set方法进行访问,因为ArrayList本质上就是一个数组. LinkedList 是一个双链表,在添加和删除元素时具有比ArrayList更好的性能.但在get与set方 面弱于ArrayList。 当然,这些对比都是指数据量很大或者操作很频繁的情况下的对比,如果数据和运算量很小,那 么对比将失去意义。 什么情况会造成内存泄漏? 在Java中,内存泄漏就是存在一些被分配的对象,这些对象有下面两个特点: 首先,这些对象是可达的,即在有向图中,存在通路可以与其相连; 其次,这些对象是无用的,即程序以后不会再使用这些对象。 如果对象满足这两个条件,这些对象就可以判定为Java中的内存泄漏,这些对象不会被GC 回收,然而它却占用内存。 什么是线程死锁,如何解决? 产生死锁的条件有四个: 互斥条件 :所谓互斥就是进程在某一时间内独占资源。 请求与保持条件 :一个进程因请求资源而阻塞时,对已获得的资源保持不放。 不剥夺条件 :进程已获得资源,在末使用完之前,不能强行剥夺。 循环等待条件

流式大数据计算实践(2)----Hadoop集群和Zookeeper

天涯浪子 提交于 2020-05-07 19:12:02
一、前言 1、上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二、搭建Hadoop集群 1、根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器 core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2、 清空数据,首先把运行单机模式后生成的数据全部清理掉 rm -rf /work/hadoop/nn/ current rm -rf /work/hadoop/dn/current hdfs namenode -format 3、启动集群 (1)storm1作为namenode节点,所以在这台机上面执行命令启动namenode $HADOOP_PREFIX/sbin/hadoop-daemon. sh --script hdfs start namenode (2)storm2作为datanode节点,所以在这台机上面执行命令启动datanode $HADOOP_PREFIX/sbin/hadoop-daemon. sh --script hdfs start datanode (3)通过jps命令可以看到对应的节点,然后通过50070的控制台可以看到storm2的datanode节点 三、ZooKeeper 1、Zookeeper是分布式框架经常要用到的应用协调服务

已拿offer热乎乎的蚂蚁金服面经分享,建议收藏(Java岗、附答案)

醉酒当歌 提交于 2020-05-06 09:13:59
前言: 由于作者面试过程中高度紧张,本文中只列出了自己还记得的部分题目。 经历了漫长一个月的等待,终于在前几天通过面试官获悉已被蚂蚁金服录取,这期间的焦虑、痛苦自不必说,知道被录取的那一刻,一整年的阴霾都一扫而空了。 笔者面的是阿里的Java研发工程师岗,面试流程是3轮技术面+1轮hr面。 1.意外的一面 一面的时候大概是3月12号,面完等了差不多半个月才突然接到二面面试官的电话。一面可能是简历面,所以问题比较简单。 ArrayList和LinkedList区别 ArrayList 是一个可改变大小的数组。当更多的元素加入到ArrayList中时,其大小将会动态地增长。内部的元素可以直接通过get与set方法进行访问,因为ArrayList本质上就是一个数组, LinkedList 是一个双链表,在添加和删除元素时具有比ArrayList更好的性能.但在get与set方面弱于ArrayList。 当然,这些对比都是指数据量很大或者操作很频繁的情况下的对比,如果数据和运算量很小,那么对比将失去意义。 什么情况会造成内存泄漏 在Java中,内存泄漏就是存在一些被分配的对象,这些对象有下面两个特点: 首先,这些对象是可达的,即在有向图中,存在通路可以与其相连; 其次,这些对象是无用的,即程序以后不会再使用这些对象。 如果对象满足这两个条件,这些对象就可以判定为Java中的内存泄漏

已拿offer热乎乎的蚂蚁金服面经分享,建议收藏(Java岗、附答案)

回眸只為那壹抹淺笑 提交于 2020-05-06 09:13:41
前言: 由于作者面试过程中高度紧张,本文中只列出了自己还记得的部分题目。 经历了漫长一个月的等待,终于在前几天通过面试官获悉已被蚂蚁金服录取,这期间的焦虑、痛苦自不必说,知道被录取的那一刻,一整年的阴霾都一扫而空了。 笔者面的是阿里的Java研发工程师岗,面试流程是3轮技术面+1轮hr面。 1.意外的一面 一面的时候大概是3月12号,面完等了差不多半个月才突然接到二面面试官的电话。一面可能是简历面,所以问题比较简单。 ArrayList和LinkedList区别 ArrayList 是一个可改变大小的数组。当更多的元素加入到ArrayList中时,其大小将会动态地增长。内部的元素可以直接通过get与set方法进行访问,因为ArrayList本质上就是一个数组, LinkedList 是一个双链表,在添加和删除元素时具有比ArrayList更好的性能.但在get与set方面弱于ArrayList。 当然,这些对比都是指数据量很大或者操作很频繁的情况下的对比,如果数据和运算量很小,那么对比将失去意义。 什么情况会造成内存泄漏 在Java中,内存泄漏就是存在一些被分配的对象,这些对象有下面两个特点: 首先,这些对象是可达的,即在有向图中,存在通路可以与其相连; 其次,这些对象是无用的,即程序以后不会再使用这些对象。 如果对象满足这两个条件,这些对象就可以判定为Java中的内存泄漏

Django从零搭建个人博客 | 文章列表页查询筛选及分页

偶尔善良 提交于 2020-05-05 12:53:00
原文章地址: EOSONES博客 在整个博客的搭建中,文章相关的功能是最关键的,比如文章相关数据模型的设计、不同分类下文章的筛选显示、以及对显示功能完善的分页功能。本文针对本博客的文章主要功能通过这几方面进行介绍,参考全部代码请到Github查看。 设计文章相关模型 1、功能分析 在数据库设计之前,我们首先要确定网站功能,结合本站,最主要的是我们的博文表,名字可以直接叫做 article,其中包含博文的标题、内容、发表时间、修改时间、分类、标签、阅读量、喜欢量、作者、关键词等。博文表直接关联的有分类表(一对多)、标签表(多对多)和文章关键词表 (多对多),分类表是隶属在导航栏下,到此我们可以确定出这些最基本的数据表,博客(Article)、分类(Category)、标签(Tag)与文章关键词 (Keyword)、导航(Bigcategory)。 2、编写 Storm 应用模型 首先打开项目根目录,创建 Storm APP python manage.py startapp Storm 在 Myblog -> storm -> models.py 中首先设计导航表 (Bigcategory)与分类表(Category)。 from django.db import models from django.conf import settings #引入定义字段SEO设置(提前设置

Java大数据秋招面试题

怎甘沉沦 提交于 2020-05-04 08:30:04
以下为整理的自己秋招遇到的面试题; 主要是Java和大数据相关题型; 根据印象整理了下,有些记不起来了。 死锁、乐观锁、悲观锁 synchronized底层原理及膨胀机制 ReetrantLock底层原理,源码是如何实现公平和非公平的 synchronized和lock的区别 volitale理解?volitale保证可见性的意义 什么是指令重排序,为什么要禁止指令重排序 介绍java中的基本数据类型及所占大小 2的8次方是多少,Integer最小值是多少,说数值 scala中Int和Long是怎么实现的,丰富的API是如何实现,scala中String是怎么实现的,这么多丰富的方法是怎么实现的?隐式转换 介绍Java中你知道的所有Map、Set、List的类,比较他们的区别,哪些是线程安全? 怎样使用线程安全的集合,并发安全的容器都有哪些? HashMap和ConcurrentHashMap的原理 HashMap的key如何设计?HashMap死循环问题 HashMap为什么使用红黑树不使用B树、B+树 说一下平衡二叉树的插入删除操作?树的层序遍历说说? 多进程和多线程的区别,进程和线程的区别? Callable和Runnable的区别谈一谈? 线程怎么实现?讲讲Java中的线程池? 自定义线程池,你是如何考量七大参数的,设计思路?如何优化synchronized,CAS的缺点

喜大普奔!70k Star 《Java核心知识面试手册》PDF版本开放下载啦

♀尐吖头ヾ 提交于 2020-04-30 17:29:10
终于把PDF版本的《Java面试突击手册》搞定!废话不多说,直接上目录: 这份文档是Java 面试相关的文章的集合,内容涵盖JVM,JAVA集合,JAVA多线程并发,JAVA基础,Spring原理,微服务,Hetty与RPC,网络,日志,Zookeeper,Kafka,Rabbi tMQ,Hbase,MongoDB,Cassandra,设计模式,负载均衡,数据库,一致性算法,JAVA算法,数据结构,加密算法,分布式缓存,Hadoop,Spark,Storm,YARN,机器学习,云计算等等,它提供了非常详细的目录,建议可以从头开始看一遍,如果基础不错的话也可以挑自己需要的章节查看。看的过程中自己要多思考,碰到不懂的地方,自己记得要勤搜索,需要记忆的地方也不要吝啬自己的脑子。 如何获取 +微信即可! 来源: oschina 链接: https://my.oschina.net/u/4320183/blog/4259520