HDFS | 易学教程

第七讲：hadoop搭建伪分布式模式并启动YARN做词频分析

阅读更多关于第七讲：hadoop搭建伪分布式模式并启动YARN做词频分析

以下我们要进行： 1、搭建hadoop伪分布式模式，启动hdfs 2、上传文档到hdfs 3、配置YARN，启动YARN对hdfs里面的文档进行词频分析首先： 1、确保jdk安装正确 2、确保安装并配置hadoop ,以下是hadoop的版本通过第四讲的配置启动hadoop服务，输入jps可以查看到 3、确保hdfs正常运行，通过网页可以查看到hdfs页面数据：在浏览器输入：localhost:50070 4、新建一个本地文件，并且上传到hdfs上面查看上传的文件内容： 5、配置YARN 首先，什么是YARN？ YARN 的全拼：Yet Another Resource Negotiator 含义是：“另一种资源协调者“ 是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。是从Hadoop2开始的。算是MapReduce的升级版。为什么会有升级版本呢？我们下面看下MapReduce 1.0 和 MapReduce2.0(也就是YARN)的区别：以下是hadoop版本和MapReduce对应的版本关系： Hadoop版本 MapReduce对应版本 1.X MapReduce1.0 2.X MapReduce2.0 如果你的是hadoop2.X 版本的

Hive 之 DDL 数据库定义语言应用（重点）

阅读更多关于 Hive 之 DDL 数据库定义语言应用（重点）

文章目录四、DDL 数据定义 1、创建数据库 2、查询数据库 2.1 显示数据库 2.2 查看数据库详情 2.3 切换当前数据库 3、修改数据库 4、删除数据库 5 、创建表 5.1 管理表 5.2 外部表 5.3 管理表与外部表的互相转换 6、修改表 6.1 重命名表 6.2 增加、修改和删除表分区 6.3 增加/修改/替换列信息 7、删除表 8、清除表四、DDL 数据定义 data defination language：数据库定义语言 1、创建数据库（库和表在 HDFS 上都是以文件夹的形式存在） 1.1 创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。 hive ( default ) > create database db_hive ; 1.2 避免要创建的数据库已经存在错误，增加 if not exists 判断。（标准写法） hive ( default ) > create database db_hive ; FAILED: Execution Error , return code 1 from org . apache . hadoop . hive . ql . exec . DDLTask . Database db_hive already exists hive (

Hive的学习之路（理论篇）

阅读更多关于 Hive的学习之路（理论篇）

一、Hive介绍　　Apache官网给出的logo，一半是Hadoop大象的头，一半是蜜蜂的身体，也是寓意着它是基于Hadoop，哈哈，纯属个人理解，进入正题。　　Hive是基于Hadoop的一个数据仓库工具，可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。　　Hive定义了简单的类sql查询语言，成为HiveQL，它允许熟悉SQL的用户查询数据。　　HiveSQL：Hive通过类sql的语法，来进行分布式的计算。HQL用起来和SQL非常的相似，Hive在执行的过程中会将HQL转换为MapReduce去执行，所以Hive其实就是基于Hadoop的一种分布式计算框架，底层依然是MapReduce程序，因此它本质上还是一种离线大数据分析工具。二、Hive的适用场景　　Hive是构建在静态（离线）批处理的Hadoop之上，Hadoop通常有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此， Hive并不能在大规模数据上实现低延迟快速的查询。　　Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型，Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群中，Hadoop监控作业执行过程

大数据网管运营数据存储模式研究

阅读更多关于大数据网管运营数据存储模式研究

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！随着近两年通信流量业务开展得如火如荼，更多的用户上网行为的数据分析需求猛增，而处理这类数据需要大量的写入处理，而且字段不固定，传统的关系型数据库已无法满足需求，急需多节点的分布式大数据集群来解决数据处理及存储问题。本研究构建了一套大数据采集、存储体系，将系统分为采集层、ODS、DW、DM等四层，分别完成海量数据的采集、汇总、处理、生成价值数据过程中的不同环节。其中，采集层负责原始数据的采集，ODS层负责统一不同系统间的业务内容，对部分海量数据的非结构化数据进行转换。DW层是以空间换时间的一层，要形成大量的基础Cube，基础常用业务粒度的数据。实现统一的KPI过程，是ODS层指标转换的基础。DM层主要是面向业务的组合，面向分析的Cube变换，面向挖掘的数据变换。数据分类存储在数据存储过程中，按照数据价值和生命周期管理原则(热数据对存储性能要求高，随着数据生命周期的变化，数据价值降低，逐渐向一般性能存储迁移，其中数据价值的参考项包括时效性、访问频率、价值密度、业务意义等)，可以将不同数据分类存储，制定不同的存储方式及存储周期。对于采集层的原始数据，将采集层的数据加载到基础数据缓存，为数据整合提供缓存，其中大数据1~3天，传统数据7天。对于ODS层数据，通过内存库关联与整合

第三讲：毕业论文(设计)开题报告

阅读更多关于第三讲：毕业论文(设计)开题报告

本讲讲解开题报告的设计。一、字体与格式参看第二讲的内容，这里不再赘述。二、头部信息如下图所示，样式不要有太多的差异化。三、选题的背景与意义 2.1背景选题背景即阐述做这件事情（毕业设计作品）的原因。应包括现实需要和理论背景： 1、现实背景：如你自己的需要、行业的需要、社会的需要等等，就是你为什么要做这件事情。 2、理论背景：我们要做很多事情，但是有些事情是无法做到的，比如摘月亮。做不到是因为有很多技术上的限制，甚至有些事情还会到道德上的限制、法律上的限制。这里主要讲的是技术上的，也就是你现在能够通过这个毕业设计的作品来实现你的需求，是因为什么技术已经满足了要求？如果要写得好一点，比如涉及到技术A，那么还需要阐述技术A在国内外发展的现状。当然，这里现实需求和理论需求的阐述顺序并没有严格的要求，你能够表述清楚即可。比如（当然，下面是简单描述，具体写的话，至少也要200字以上）：由于IT技术的发展，通过HDFS的分布式存储技术已经非常稳定且容易实现，通过成熟的JSP+Mysql技术很容易搭建Web网站。计算机专业的学习资料比较多，大学宿舍里面的文件共享比较麻烦，经常需要用U盘来实现共享。我想通过JSP+Mysql+HDFS技术实现一个多人共享的分布式存储系统，利用宿舍多台电脑的剩余存储空间实现资料存储。 2.2意义这里的意义简单表述就是：你把这个系统做出来之后

kylin streaming原理介绍与特点浅析

阅读更多关于 kylin streaming原理介绍与特点浅析

目录前言 kylin streaming设计和原理架构介绍 streaming coordinator streaming receiver cluster kylin streaming数据构建流程 kylin streaming查询流程 kylin streaming实现细节 kylin streaming segment存储实现重平衡/重分配故障恢复 kylin streaming优化总结前言最近搭了Kylin Streaming并初步测试了下，觉得这个东西虽然有些限制，但还是蛮好用的，所以系统写篇文章总结下其原理和一些配置。 Kylin Streaming是Kylin3.0最新引入的一个功能，意为OLAP查询提供亚秒级的数据延迟，即在摄入数据后，立即可以在OLAP查询中体现出来。用过Kylin应该都知道，它主要是通过预构建的方式，将数据从Hive预先计算然后存储到Hbase。查询的时候一些复杂操作直接转成Hbase的scan和filter操作，大大降低OLAP查询响应时间。而在比较早版本的Kylin其实是有提供从kafka构建流式应用的，只是那时候走的还是预构建然后存到hbase的路子。这其实是微批的思路，缺点是延迟会比较高（十几分钟级别的延迟）。这个延迟在某些场景下肯定是无法使用的，所以19年Kylin开始对实时计算这块进行开发

优雅的使用macOS-homebrew-5-安装大数据hadoop环境

阅读更多关于优雅的使用macOS-homebrew-5-安装大数据hadoop环境

0前提 1本文章用于macos快速安装一个单机版hadoop，目的为了方便开发和测试。 2本文的安装高度依赖homebrew，个人认为这是macos同其他操作系统例如linux，windows的最大区别和优势之一。 homebrew可帮助我们自动升级相关组件和配置环境变量和参数，并免于反复操作的烦恼。 3本文档不会讲解伪分布式和真分布式的搭建（没必要也没意义，当然你是买的最新的mac pro高配版，就想安装集群,那没我啥事了） 4注意你安装的hadoop的版本号，不然copy我的命令可能会失效 5前提是了解linux或者mac 或者Unix的命令和基本使用 1安装 1.1步骤话不多说 brew install hadoop 查看安装情况 $ brew list hadoop 1.2重要背景知识点 1配置文件位置 cd /usr/local/Cellar/hadoop/3.2.1_1/libexec/etc/hadoop 2使用脚本位置 cd /usr/local/Cellar/hadoop/3.2.1_1/libexec/sbin 启动，关闭。小学英语水平就可以看懂，我不一一介绍了。 3依赖的位置 cd /usr/local/Cellar/hadoop/3.2.1_1/libexec/share/hadoop/common/lib 4日志的位置 cd /usr/local

sparksql开发入门

阅读更多关于 sparksql开发入门

一、sparksql基本操作 1.构建sparkSession import org.apache.spark.sql.SparkSession val spark: SparkSession = SparkSession .builder .enableHiveSupport() .config(initConf()) .getOrCreate 2.停止sparkSession spark.stop 3.读取parquet文件 val df1 = spark.read.parquet("hdfs://localhost:8020/tmp/testdata.parquet") 4.输出parquet文件 import org.apache.spark.sql. SaveMode df1.write.mode(SaveMode.Overwrite).parquet("hdfs://localhost:8020/tmp/testdata_out.parquet") 5.查看数据 //查看100行，列宽无限制 df1.show(100,false) 二、SQL操作数据 1.读取parquet文件，并注册临时view val df1 = spark.read.parquet("hdfs://localhost:8020/tmp/testdata.parquet") df1

【赵强老师】在Hive中使用Load语句加载数据

阅读更多关于【赵强老师】在Hive中使用Load语句加载数据

一、Hive中load语句的语法说明 Hive Load语句不会在加载数据的时候做任何转换工作，而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下： LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \ [PARTITION (partcol1=val1, partcol2=val2 ...)] LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \ [PARTITION (partcol1=val1, partcol2=val2 ...)] \ [INPUTFORMAT 'inputformat' SERDE 'serde'] (3.0 or later) 几点说明：如果命令中带有LOCAL，说明从本地文件系统加载数据，文件路径可以是相对路径，也可以是绝对路径。在这种情况下，首先将文件从本地复制到hdfs相应的位置，然后移动到hive表格中，这个时候原始数据文件是存在于Hive表之下的路径下。如果不包含LOCAL关键字，则移动HDFS文件到目标表中。 filepath 可以是一个相对路径，也可以是一个绝对路径。可以是一个文件，也可以是一个文件夹目录。如果是一个目录

远程提交Spark任务到yarn集群

阅读更多关于远程提交Spark任务到yarn集群

参考文章：在idea里面怎么远程提交spark任务到yarn集群 spark任务运行的几种模式: 1,本地模式,在idea里面写完代码直接运行. 2,standalone模式,需要把程序打jar包,上传到集群,spark-submit提交到集群运行 3,yarn模式(local,client,cluster)跟上面的一样,也需要打jar包,提交到集群运行如果是自己测试的话,用上面几种方法都比较麻烦,每次改完代码都需要打包上传到集群,然后spark-submit提交到集群运行,也非常浪费时间,下面就介绍怎么在本地idea远程提交到yarn集群直接看下面的demo(代码写的比较简单) package spark import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.{SparkConf} import spark.wordcount

订阅 HDFS