HDFS

Hadoop知识点总结

青春壹個敷衍的年華 提交于 2020-10-26 06:58:29
一:大数据概述 一、大数据简介 1. 概念:指无法在一定时间范围内使用常规软件工具进项捕捉、管理和处理数据集合,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 2. 作用: 解决海量数据的存储和海量数据的分析计算问题。 3. 大数据与云计算的关系:大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,有效地处理大量的容忍经过时间内的数据。 二、大数据特征 1. Volume(容量大):数据的大小决定所考虑的数据的价值和潜在的信息。 2. Velocity(速度快):获得并处理数据的效率。是区分传统数据挖掘最显著特征。 3. Variety(多样性):数据类型的多样性。以数据库/文本的结构化数据和以网络日志,图片,音频、视频等为主的非结构化数据。 4. Value(价值):合理运用大数据,以低成本创造高价值。 5. Variability(可变性):妨碍了处理和有效地管理数据的过程。 6. Veracity(真实性):数据的质量。 7. Complexity ( 复杂性 ):数据量巨大,来源多渠道。 三、大数据应用场景 1. 物流仓储:大数据分析系统助力商家精细化运营,提升销量,节约成本。 2. 零售及商品推荐:分析用户消费习惯,给用户推荐可能喜欢的商品,为用户购买商品提供方便。 3. 旅游:深度结合大数据能力和旅游行业需求

CDH常用端口汇总

走远了吗. 提交于 2020-10-26 05:06:34
参考文章: CDH常用端口汇总 Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 10020:historyserver端口 Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯使用,Leader监听此端口 3888 : zookeeper端口 用于选举leader Hbase: 60010:Hbase的master的WEB UI端口 60030:Hbase的regionServer的WEB UI 管理端口 Hive: 9083 : metastore服务默认监听端口 10000:Hive 的JDBC端口 Spark: 7077 : spark 的master与worker进行通讯的端口 standalone集群提交Application的端口 8080 : master的WEB UI端口 资源调度 8081 : worker的WEB UI 端口 资源调度 4040 : Driver的WEB UI 端口 任务调度 18080:Spark History Server的WEB UI 端口 Kafka:

认识Hive,以及Hive的数据定义与数据操作,hive的数据查询和hive函数

孤街浪徒 提交于 2020-10-24 17:19:08
认识Hive 为什么要出现hive 前面知识我们讲到mapreudce计算框架,各位需要通过java编码的形式来实现设计运算过程,这对各位的编程能力提出了更高的要求,难道没有门槛更低的方式来实现运算的设计吗?Hive出现的目的就是为了解决这个问题。 Hive的设计目的是为了让那些精通SQL技能而Java技能较弱的数据分析师能够利用Hadoop进行各种数据分析。 对于前面的WordCount例子,Java代码大概在80行左右,这对于经验丰富的Java开发工程师来说也不是易事,但如果用Hive的查询语言(即HiveQL)来完成的话,只有几行代码: 可以看出HiveQL的语法和SQL非常类似。在实际开发中,80%的操作都不会由MapReduce程序直接完成,而是由Hive来完成,所以Hive本身实践性非常强,并且使用频率非常高,只需要对SQL熟练即可 简单来说就是为了那些精通sql的人哈!! Hive显著地降低了使用Hadoop来做数据分析的学习成本,对于精通Java的人来说,Hive任然是首选,因为Hive稳定,代码精简并且易于维护。 常用的count、group by、order by、join等SQL操作都可以由Hive来完成,在某种意义上,Hive可以说是HiveQL(SQL)到Mapreduce的映射器,或者说是对Mapreduce任务的高度封装

Hbase详细笔记四[JAVA-API] (附带讲解视频)

五迷三道 提交于 2020-10-24 08:36:24
1 创建Maven项目 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>org.example</groupId> <artifactId>doit15-hbase</artifactId> <version>1.0-SNAPSHOT</version> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> </properties>

python读取hdfs并返回dataframe教程

故事扮演 提交于 2020-10-24 01:44:04
不多说,直接上代码 from hdfs import Client import pandas as pd HDFSHOST = "http://xxx:50070" FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路径 COLUMNNAMES = [xx'] def readHDFS(): ''' 读取hdfs文件 Returns: df:dataframe hdfs数据 ''' client = Client(HDFSHOST) # 目前读取hdfs文件采用方式: # 1. 先从hdfs读取二进制数据流文件 # 2. 将二进制文件另存为.csv # 3. 使用pandas读取csv文件 with client.read(FILENAME) as fs: content = fs.read() s = str(content, 'utf-8') file = open("data/tmp/data.csv", "w") file.write(s) df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES) return df 补充知识:Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV 1. 目标 通过hadoop

生态 | Apache Hudi集成Alluxio实践

∥☆過路亽.° 提交于 2020-10-23 02:29:01
原文链接: https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。 对于用户应用程序和计算框架,Alluxio提供了快速存储,促进了作业之间的数据共享和局部性。当数据位于本地时,Alluxio可以以内存速度提供数据;当数据位于Alluxio时,Alluxio可以以计算集群网络的速度提供数据。第一次访问数据时,只从存储系统上读取一次数据。为了得到更好的性能,Alluxio推荐部署在计算集群上。 对于存储系统,Alluxio弥补了大数据应用与传统存储系统之间的差距,扩大了可用的数据工作负载集。当同时挂载多个数据源时,Alluxio可以作为任意数量的不同数据源的统一层。 Alluxio可以被分为三个部分:masters、workers以及clients。一个典型的设置由一个主服务器、多个备用服务器和多个worker组成。客户端用于通过Spark或MapReduce作业、Alluxio命令行等与Alluxio服务器通信。 2. 什么是Apache Hudi

超详细的hadoop伪分布配置教程

╄→гoц情女王★ 提交于 2020-10-22 02:01:06
创建虚拟机:1 配置静态ip:2 第一步是首先查看虚拟网络编辑器。查看网关和起始结束ip 如果不能ping网络则可能是以下问题: xshell连接虚拟机: 接下来我们就在usr/local目录下传文件 这里说一下返回上一级目录的命令是cd.. 接下来配置java和hadoop的环境变量但是配置环境变量前要先进虚拟机中原有的java包删掉 接下来配置ssh无密码登陆以及主机名和主机和ip映射以及主节点 去到usr/local路径解压java和hadoop 关闭防火墙: 查看防火墙状况 systemctl status firewalld . service 关闭防火墙:systemctl stop firewalld.service 永久关闭防火墙: systemctl disable firewalld . service 配置环境变量: #java环境变量 JAVA_HOME = / usr / local / jdk1 . 8.0 _241 HADOOP_HOME = / usr / local / hadoop - 2.7 .1 CLASSPATH = . :$JAVA_HOME / lib / dt . jar:$JAVA_HOME / lib / tools . jar PATH = $JAVA_HOME / bin:$HADOOP_HOME / bin:$HADOOP

hadoop3 Java client客户端&kerberos认证

浪尽此生 提交于 2020-10-21 02:04:18
hadoop集群升级hadoop3,并需要Kerberos认证,hadoop3代码包做了合并,引用jar包如下: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>3.1.1</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.1.1</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.1</version> </dependency> 认证方法 Configuration config = new Configuration(); config.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem"); config.set("dfs.client.block.write