Hadoop

hive-3.1.2 整合进 hadoop-3.3.0 + hbase-2.2.4

前提是你 提交于 2020-08-17 16:11:15
一、下载匹配hadoop-3.x.y 版本的hive 3.1.2 下载地址 : http://mirror.bit.edu.cn/apache/hive/ 二、上传至安装目录 /home/apache-hive-3.1.2-bin.tar.gz 解压:tar -zxvf apache-hive-3.1.2-bin.tar.gz 后重命名目录:/home/hive-3.1.2 三、编辑 /etc/profile 文件 ...... if [ -n "${BASH_VERSION-}" ] ; then if [ -f /etc/bashrc ] ; then # Bash login shells run only /etc/profile # Bash non-login shells run only /etc/bashrc # Check for double sourcing is done in /etc/bashrc. . /etc/bashrc fi fi export JAVA_HOME =/usr/java/jdk1.8.0_131 export JRE_HOME = ${JAVA_HOME}/jre export HADOOP_HOME =/home/hadoop-3.3.0 export HIVE_HOME=/home/hive-3.1.2 export

第九讲:通过JavaAPI读写虚拟机里面的HDFS-创建文件夹

三世轮回 提交于 2020-08-17 14:50:59
本讲我们来讲解如何读写另外一台计算机上面的HDFS。在实际的环境中,我们的HDFS存储和应用程序很有可能是运行在不同的计算机上的。 上一讲我们实现了网络的互通,那么这一讲我们来讲解编写一个java程序来读写hdfs.。 步骤: 1、确保两台电脑网络互通(上一讲内容); 2、Centos里面的HDFS运行正常(上一讲内容); 3、Centos里面的防火墙开通9000端口(也就是centos里面的hdfs配置端口) 4、配置Windows里面的JDK; 5、配置Windows里面的Hadoop; 6、配置eclipse相关的hadoop插件或library包 7、创建Java程序。 一、开通9000端口 在centos的防火墙开通9000端口,如下: centos开启后,在windows里面的浏览器可以访问如下来测试是否能正常访问该端口: 二、配置Windows里面的JDK 本次演示的jdk版本 链接:https://pan.baidu.com/s/1X3hqp8DhdF-JEcK4rE6TyQ 提取码:kvgj 我这里的jdk文件存放的位置。 配置java_home 配置class_path 配置path 最终测试 java 和javac 命令都正常即可。 三、配置Windows里面的Hadoop 3.1配置环境变量 把hadoop压缩包解压,和centos里面的是通用的

AI 时代,还不了解大数据?

寵の児 提交于 2020-08-17 12:25:23
如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能、大数据和云计算。 这几年,随着互联网大潮走向低谷,同时传统企业纷纷进行数字化转型,基本各个公司都在考虑如何进一步挖掘数据价值,提高企业的运营效率。在这种趋势下,大数据技术越来越重要。所以,AI时代,还不了解大数据就真的OUT了! 相比较AI和云计算,大数据的技术门槛更低一些,而且跟业务的相关性更大。我个人感觉再过几年,大数据技术将会像当前的分布式技术一样,变成一项基本的技能要求。 前几天,我在团队内进行了一次大数据的技术分享,重点是对大数据知识做一次扫盲,同时提供一份学习指南。这篇文章,我基于分享的内容再做一次系统性整理,希望对大数据方向感兴趣的同学有所帮助,内容分成以下5个部分: 1、大数据的发展历史 2、大数据的核心概念 3、大数据平台的通用架构和技术体系 4、大数据的通用处理流程 5、大数据下的数仓体系架构 01 大数据的发展历史 在解释「大数据」这个概念之前,先带大家了解下大数据将近30年的发展历史,共经历了5个阶段。那在每个阶段中,大数据的历史定位是怎样的?又遇到了哪些痛点呢? 1.1 启蒙阶段:数据仓库的出现 20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞生,它将企业已有的业务数据转化成为知识,帮助老板们进行经营决策。比如零售场景中

什么是报表工具?和 EXCEL 有什么区别?

巧了我就是萌 提交于 2020-08-17 09:53:43
报表是什么? 带数据的表格和图表就都是报表,像工资表,考勤表,成绩表,资产负载表等等都是报表。 那报表工具,顾名思义就是用来做报表的工具,那 Excel 是不是也算报表工具?广义上讲当然也算。但 IT 界说的报表工具是个狭义概念,主要指用于制作企业应用中的报表的工具。 那什么是企业应用中的报表?和我们用 Excel 做的报表有啥不同,这种报表又怎么做? 报表工具和 Excel 的根本区别在于动态性。 Excel 是静态的,而企业报表却是动态的,会随着数据变动而变动。想想我们平时拿到的 Excel,它是“死”的,除非我们手动修改里面的内容,否则 Excel 是不会变化的;但我们在系统里查询的报表是随着时间和参数的变化而不同的,比如本月的销售额每天都会变化。 这样, 静态的 Excel 和动态的报表制作方式就完全不同了,制作人员也不一样。 Excel 表格可以由普通的业务人员使用 Office 或 WPS 制作完成,对制作人员的要求也不高,不需要什么技术背景;而企业报表则需要由专业的技术人员来完成,写代码或者使用专用的报表工具来做报表,做的过程中经常需要编写脚本和表达式,这就要求制作者具备一定的技术能力才能完成报表的制作。 动态性不仅体现在报表中的数据本身,还表现在报表的格式上。由于开发报表时并不知道数据源中的数据条数(数据会不断变化,不可能写死),这就需要为报表制作“模板”

【HDFS篇03】HDFS客户端操作 --- 开发环境准备

試著忘記壹切 提交于 2020-08-17 09:20:08
存储越困难,提取越容易 HDFS客户端操作---开发环境准备 步骤一:编译对应HadoopJar包,配置Hadoop变量 步骤二:创建Maven工程,导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.8.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.2</version> </dependency>

Python --深入浅出Apriori关联分析算法(一)

半城伤御伤魂 提交于 2020-08-17 04:34:55
在美国有这样一家奇怪的超市, 它将啤酒与尿布这样两个奇怪的东西放在一起进行销售,并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加 。这家超市的名字叫做沃尔玛。 你会不会觉得有些不可思议?虽然事后证明这个案例确实有根据,美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。但这毕竟是事后分析, 我们更应该关注的,是在这样的场景下,如何找出物品之间的关联规则 。接下来就来介绍下如何使用Apriori算法,来找到物品之间的关联规则吧。 一. Apriori关联分析概述 选择物品间的关联规则也就是要寻找物品之间的潜在关系。要寻找这种关系,有两步,以超市为例 找出频繁一起出现的物品集的集合,我们称之为 频繁项集 。比如一个超市的频繁项集可能有{{啤酒,尿布},{鸡蛋,牛奶},{香蕉,苹果}} 在 频繁项集 的基础上,使用 关联规则 算法找出其中物品的 关联结果 。 简单点说,就是先找频繁项集,再根据关联规则找关联物品。 为什么要先找频繁项集呢?还是以超市为例,你想想啊,我们找物品关联规则的目的是什么,是为了提高物品的销售额。如果一个物品本身购买的人就不多,那么你再怎么提升,它也不会高到哪去。所以从效率和价值的角度来说,肯定是优先找出那些人们频繁购买的物品的关联物品。 既然要找出物品的关联规则有两步,那我们也一步一步来

节约60%成本!虎牙直播云端大数据是怎么做到的?

爷,独闯天下 提交于 2020-08-17 03:54:04
引言 ​ 虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达1.5亿。 如何借助于海量业务数据将全平台的优质内容与终端用户更智能、高效地连接起来,为公司运营和业务发展提供更为有效的数据能力支撑,是虎牙大数据团队(下面简称虎牙)过去和未来一直需要深入思考和探索的重要使命。为了达成以上愿景,虎牙选择与腾讯云EMR团队合作,接入大数据云端解决方案。 本文将通过案例解读,带大家深入了解虎牙云端大数据实践。 一、虎牙直播大数据分析场景 1. 背景介绍 虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达1.5亿。 2. 大数据场景介绍 意识到数据对于业务的重要价值,虎牙很早就成立了近百人的专业大数据团队,这个团队拥有业内卓越的数据技术能力和业务理解力,以应对海量数据的高效存储计算、算法构建、业务价值洞察等领域化工作。 经过多年的建设,该团队围绕数据在各个领域都取得了极为显著的进展,真正让数据成为优质内容与终端用户连接的催化剂。 虎牙大数据团队基于开放Hadoop技术栈快速构建了稳健的全平台大数据平台,以支撑近百P规模的离线

Flink 集群搭建,Standalone,集群部署,HA高可用部署

≡放荡痞女 提交于 2020-08-17 03:06:45
基础环境 准备3台虚拟机 配置无密码登录 配置方法: https://ipooli.com/2020/04/linux_host/ 并且做好主机映射。 下载Flink https://www.apache.org/dyn/closer.lua/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgz 并解压缩 部署 Standalone Cluster 单机模式 启动 进入flink-1.10.1 文件夹内 直接执行: ./bin/start-cluster.sh 集群模式 修改配置文件 进入flink-1.10.1 文件夹内 修改 ./conf/flink-conf.yaml 修改如下几个参数: jobmanager.rpc.address: bigdata1 jobmanager.rpc.port: 6123 jobmanager.heap.size: 1024m taskmanager.memory.process.size: 1568m taskmanager.numberOfTaskSlots: 3 parallelism.default: 3 修改 ./conf/masters 配置master节点 修改为: bigdata1:8081 修改 ./conf/slaves 配置slaves节点 修改为: bigdata1

官网文档

泄露秘密 提交于 2020-08-17 01:02:37
官网设置单节点集群 官方文档-2.10.0 Purpose (目的) 这个文档如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统快速执行简单的操作 Prerequisites (安装条件) Supported Platforms (支持的平台) GNU/Linux。支持2000个节点 Windows也支持。但是有些功能不能使用。 Windows安装手册 Required Software (必须安装的软件) Java环境 ssh并且运行sshd。才能使用管理远程Hadoop守护进程的Hadoop脚本。 Installing Software (软件安装) # 系统一般默认安装的,就可以不用装 sudo apt-get install ssh sudo apt-get install rsync Download (下载地址) 下载地址 Prepare to Start the Hadoop Cluster (准备启动Hadoop集群) # 设置java环境,运行java -version检验运行成功 export JAVA_HOME=/usr/java/latest # 尝试运行命令,就是检验hadoop安装是否成功。 bin/hadoop Hadoop有三种模式启动 Local (Standalone) Mode

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

狂风中的少年 提交于 2020-08-16 19:12:49
本文为阿里巴巴技术专家余根茂在社区发的一篇文章。 Structured Streaming 最初是在 Apache Spark 2.0 中引入的,它已被证明是构建分布式流处理应用程序的最佳平台。SQL/Dataset/DataFrame API 和 Spark 的内置函数的统一使得开发人员可以轻松实现复杂的需求,比如支持流聚合、流-流 Join 和窗口。自从 Structured Streaming 发布以来,社区的开发人员经常要求需要更好的方法来管理他们的流作业,就像我们在 Spark Streaming 中所做的那样。为此,Apache Spark 3.0 为 Structured Streaming 开发了一套全新的 UI。 新的 Structured Streaming UI 通过有用的信息和统计信息提供了一种简单的方法来监控所有流作业,从而使开发调试期间的故障排除变得更容易,在生产环境下通过实时度量更好的理解我们的作业瓶颈。新的 UI 提供了两组统计信息: 流查询作业的聚合信息; 流查询的详细统计信息,包括输入速率(Input Rate)、处理速率(Process Rate)、输入行数(Input Rows)、批处理持续时间(Batch Duration,)、操作持续时间等(Operation Duration)。 文章目录 1 流查询作业的聚合信息 2 详细统计信息 3