HDFS

第七讲:hadoop搭建伪分布式模式并启动YARN做词频分析

筅森魡賤 提交于 2020-08-09 10:46:06
以下我们要进行: 1、搭建hadoop伪分布式模式,启动hdfs 2、上传文档到hdfs 3、配置YARN,启动YARN对hdfs里面的文档进行词频分析 首先: 1、确保jdk安装正确 2、确保安装并配置hadoop ,以下是hadoop的版本 通过第四讲的配置启动hadoop服务,输入jps可以查看到 3、确保hdfs正常运行 ,通过网页可以查看到hdfs页面数据: 在浏览器输入:localhost:50070 4、新建一个本地文件 ,并且上传到hdfs上面 查看上传的文件内容: 5、配置YARN 首先,什么是YARN? YARN 的全拼:Yet Another Resource Negotiator 含义是:“另一种资源协调者“ 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。是从Hadoop2开始的。算是MapReduce的升级版。为什么会有升级版本呢?我们下面看下MapReduce 1.0 和 MapReduce2.0(也就是YARN)的区别: 以下是hadoop版本和MapReduce对应的版本关系: Hadoop版本 MapReduce对应版本 1.X MapReduce1.0 2.X MapReduce2.0 如果你的是hadoop2.X 版本的

Hive 之 DDL 数据库定义语言应用(重点)

痞子三分冷 提交于 2020-08-09 10:45:54
文章目录 四、DDL 数据定义 1、创建数据库 2、查询数据库 2.1 显示数据库 2.2 查看数据库详情 2.3 切换当前数据库 3、 修改数据库 4、 删除数据库 5 、创建表 5.1 管理表 5.2 外部表 5.3 管理表与外部表的互相转换 6、 修改表 6.1 重命名表 6.2 增加、修改和删除表分区 6.3 增加/修改/替换列信息 7、 删除表 8、 清除表 四、DDL 数据定义 data defination language:数据库定义语言 1、创建数据库 (库和表在 HDFS 上都是以文件夹的形式存在) 1.1 创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。 hive ( default ) > create database db_hive ; 1.2 避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive ( default ) > create database db_hive ; FAILED: Execution Error , return code 1 from org . apache . hadoop . hive . ql . exec . DDLTask . Database db_hive already exists hive (

Hive的学习之路(理论篇)

久未见 提交于 2020-08-09 08:35:09
一、Hive介绍   Apache官网给出的logo,一半是Hadoop大象的头,一半是蜜蜂的身体,也是寓意着它是基于Hadoop,哈哈,纯属个人理解,进入正题。   Hive是基于Hadoop的一个 数据仓库工具 ,可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。   Hive定义了简单的类sql查询语言,成为HiveQL,它允许熟悉SQL的用户查询数据。   HiveSQL:Hive通过类sql的语法,来进行分布式的计算。HQL用起来和SQL非常的相似,Hive在执行的过程中会将HQL转换为MapReduce去执行,所以Hive其实就是基于Hadoop的一种分布式计算框架,底层依然是MapReduce程序,因此它本质上还是一种 离线大数据分析工具 。 二、Hive的适用场景   Hive是构建在静态(离线)批处理的Hadoop之上,Hadoop通常有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此, Hive并不能在大规模数据上实现低延迟快速的查询 。   Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群 中,Hadoop监控作业执行过程

大数据网管运营数据存储模式研究

不问归期 提交于 2020-08-09 06:43:34
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 随着近两年通信流量业务开展得如火如荼,更多的用户上网行为的数据分析需求猛增,而处理这类数据需要大量的写入处理,而且字段不固定,传统的关系型数据库已无法满足需求,急需多节点的分布式大数据集群来解决数据处理及存储问题。 本研究构建了一套大数据采集、存储体系,将系统分为采集层、ODS、DW、DM等四层,分别完成海量数据的采集、汇总、处理、生成价值数据过程中的不同环节。其中,采集层负责原始数据的采集,ODS层负责统一不同系统间的业务内容,对部分海量数据的非结构化数据进行转换。DW层是以空间换时间的一层,要形成大量的基础Cube,基础常用业务粒度的数据。实现统一的KPI过程,是ODS层指标转换的基础。DM层主要是面向业务的组合,面向分析的Cube变换,面向挖掘的数据变换。 数据分类存储 在数据存储过程中,按照数据价值和生命周期管理原则(热数据对存储性能要求高,随着数据生命周期的变化,数据价值降低,逐渐向一般性能存储迁移,其中数据价值的参考项包括时效性、访问频率、价值密度、业务意义等),可以将不同数据分类存储,制定不同的存储方式及存储周期。 对于采集层的原始数据,将采集层的数据加载到基础数据缓存,为数据整合提供缓存,其中大数据1~3天,传统数据7天。对于ODS层数据,通过内存库关联与整合

第三讲:毕业论文(设计)开题报告

戏子无情 提交于 2020-08-09 03:23:52
本讲讲解开题报告的设计。 一、字体与格式 参看第二讲的内容,这里不再赘述。 二、头部信息 如下图所示,样式不要有太多的差异化。 三、选题的背景与意义 2.1背景 选题背景即阐述做这件事情(毕业设计作品)的原因。应包括现实需要和理论背景: 1、现实背景:如你自己的需要、行业的需要、社会的需要等等,就是你为什么要做这件事情。 2、理论背景:我们要做很多事情,但是有些事情是无法做到的,比如摘月亮。做不到是因为有很多技术上的限制,甚至有些事情还会到道德上的限制、法律上的限制。这里主要讲的是技术上的,也就是你现在能够通过这个毕业设计的作品来实现你的需求,是因为什么技术已经满足了要求?如果要写得好一点,比如涉及到技术A,那么还需要阐述技术A在国内外发展的现状。 当然,这里现实需求和理论需求的阐述顺序并没有严格的要求,你能够表述清楚即可。比如(当然,下面是简单描述,具体写的话,至少也要200字以上): 由于IT技术的发展,通过HDFS的分布式存储技术已经非常稳定且容易实现,通过成熟的JSP+Mysql技术很容易搭建Web网站。计算机专业的学习资料比较多,大学宿舍里面的文件共享比较麻烦,经常需要用U盘来实现共享。我想通过JSP+Mysql+HDFS技术实现一个多人共享的分布式存储系统,利用宿舍多台电脑的剩余存储空间实现资料存储。 2.2意义 这里的意义简单表述就是:你把这个系统做出来之后

kylin streaming原理介绍与特点浅析

ε祈祈猫儿з 提交于 2020-08-08 20:45:39
目录 前言 kylin streaming设计和原理 架构介绍 streaming coordinator streaming receiver cluster kylin streaming数据构建流程 kylin streaming查询流程 kylin streaming实现细节 kylin streaming segment存储实现 重平衡/重分配 故障恢复 kylin streaming优化 总结 前言 最近搭了Kylin Streaming并初步测试了下,觉得这个东西虽然有些限制,但还是蛮好用的,所以系统写篇文章总结下其原理和一些配置。 Kylin Streaming是Kylin3.0最新引入的一个功能,意为OLAP查询提供亚秒级的数据延迟,即在摄入数据后,立即可以在OLAP查询中体现出来。 用过Kylin应该都知道,它主要是通过预构建的方式,将数据从Hive预先计算然后存储到Hbase。查询的时候一些复杂操作直接转成Hbase的scan和filter操作,大大降低OLAP查询响应时间。 而在比较早版本的Kylin其实是有提供从kafka构建流式应用的,只是那时候走的还是预构建然后存到hbase的路子。这其实是微批的思路,缺点是延迟会比较高(十几分钟级别的延迟)。 这个延迟在某些场景下肯定是无法使用的,所以19年Kylin开始对实时计算这块进行开发

优雅的使用macOS-homebrew-5-安装大数据hadoop环境

心已入冬 提交于 2020-08-08 19:24:18
0前提 1本文章用于macos快速安装一个单机版hadoop,目的为了方便开发和测试。 2本文的安装高度依赖homebrew,个人认为这是macos同其他操作系统例如linux,windows的最大区别和优势之一。 homebrew可帮助我们自动升级相关组件和配置环境变量和参数,并免于反复操作的烦恼。 3本文档不会讲解伪分布式和真分布式的搭建(没必要也没意义,当然你是买的最新的mac pro高配版,就想安装集群,那没我啥事了 ) 4注意你安装的hadoop的版本号,不然copy我的命令可能会失效 5前提是了解linux或者mac 或者Unix的命令和基本使用 1安装 1.1步骤 话不多说 brew install hadoop 查看安装情况 $ brew list hadoop 1.2重要背景知识点 1配置文件位置 cd /usr/local/Cellar/hadoop/3.2.1_1/libexec/etc/hadoop 2使用脚本位置 cd /usr/local/Cellar/hadoop/3.2.1_1/libexec/sbin 启动,关闭。小学英语水平就可以看懂,我不一一介绍了。 3依赖的位置 cd /usr/local/Cellar/hadoop/3.2.1_1/libexec/share/hadoop/common/lib 4日志的位置 cd /usr/local

sparksql开发入门

孤街醉人 提交于 2020-08-08 19:17:36
一、sparksql基本操作 1.构建sparkSession import org.apache.spark.sql.SparkSession val spark: SparkSession = SparkSession .builder .enableHiveSupport() .config(initConf()) .getOrCreate 2.停止sparkSession spark.stop 3.读取parquet文件 val df1 = spark.read.parquet("hdfs://localhost:8020/tmp/testdata.parquet") 4.输出parquet文件 import org.apache.spark.sql. SaveMode df1.write.mode(SaveMode.Overwrite).parquet("hdfs://localhost:8020/tmp/testdata_out.parquet") 5.查看数据 //查看100行,列宽无限制 df1.show(100,false) 二、SQL操作数据 1.读取parquet文件,并注册临时view val df1 = spark.read.parquet("hdfs://localhost:8020/tmp/testdata.parquet") df1

【赵强老师】在Hive中使用Load语句加载数据

喜欢而已 提交于 2020-08-08 19:09:18
一、Hive中load语句的语法说明 Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \ [PARTITION (partcol1=val1, partcol2=val2 ...)] LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \ [PARTITION (partcol1=val1, partcol2=val2 ...)] \ [INPUTFORMAT 'inputformat' SERDE 'serde'] (3.0 or later) 几点说明: 如果命令中带有LOCAL,说明从本地文件系统加载数据,文件路径可以是相对路径,也可以是绝对路径。在这种情况下,首先将文件从本地复制到hdfs相应的位置,然后移动到hive表格中,这个时候原始数据文件是存在于Hive表之下的路径下。 如果不包含LOCAL关键字,则移动HDFS文件到目标表中。 filepath 可以是一个相对路径,也可以是一个绝对路径。可以是一个文件,也可以是一个文件夹目录。如果是一个目录

远程提交Spark任务到yarn集群

我只是一个虾纸丫 提交于 2020-08-08 16:43:12
参考文章: 在idea里面怎么远程提交spark任务到yarn集群 spark任务运行的几种模式: 1,本地模式,在idea里面写完代码直接运行. 2,standalone模式,需要把程序打jar包,上传到集群,spark-submit提交到集群运行 3,yarn模式(local,client,cluster)跟上面的一样,也需要打jar包,提交到集群运行 如果是自己测试的话,用上面几种方法都比较麻烦,每次改完代码都需要打包上传到集群,然后spark-submit提交到集群运行,也非常浪费时间,下面就介绍怎么在本地idea远程提交到yarn集群 直接看下面的demo(代码写的比较简单) package spark import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.{SparkConf} import spark.wordcount