HDFS

hadoop hdfs 命令使用

↘锁芯ラ 提交于 2020-02-28 21:30:00
概述 本文档介绍Hadoop hdfs系统的一些常用命令。 操作hdfs系统可以使用hadoop fs 也可以使用 hdfs dfs ,两者效果一样。(hadoop dfs命令已不再建议使用) 参考: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 常用命令 一、 hadoop fs (hdfs dfs) 文件操作 1) ls 显示目录下的所有文件或者文件夹 使用方法: hadoop fs -ls [uri形式目录] 示例: hadoop fs –ls / 显示根目录下的所有文件和目录 显示目录下的所有文件可以加 -R 选项 示例: hadoop fs -ls -R / 2) cat 查看文件内容 使用方法:hadoop fs -cat URI [URI …] 示例: hadoop fs -cat /in/test2.txt 3) mkdir 创建目录 使用方法:hadoop fs -mkdir [uri形式目录] 示例: hadoop fs –mkdir /test 创建多级目录 加上 –p 示例: hadoop fs –mkdir -p /a/b/c 4) rm 删除目录或者文件 使用方法:hadoop fs -rm [文件路径] 删除文件夹加上 -r 示例: hadoop fs -rm /test1.txt

Hive 学习(三) Hive的DDL操作

早过忘川 提交于 2020-02-28 21:15:35
一,库操作    1.1 语句结构    1.2 创建库 二,表操作    2.1 语法结构    2.2 基本建表语句    2.3 删除表    2.4 内部表和外部表    2.5 分区表    2.6 CTAS建表语法 三,数据导入和导出    3.1 将文件导入hive的表    3.2 将hive表中的数据导出到指定的路径文件    3.3 hive的文件格式 四,修改表定义 正文 一,库操作    1.1 语句结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name   [COMMENT database_comment]      //关于数据块的描述   [LOCATION hdfs_path]          //指定数据库在HDFS上的存储位置   [WITH DBPROPERTIES (property_name=property_value, ...)];    //指定数据块属性   默认地址:/user/hive/warehouse/db_name.db/table_name/partition_name/…    1.2 创建数据库 create database db_order; 库建好后,在hdfs中会生成一个库目录: hdfs://hdp20-01:9000/user/hive

FSEditLog: Error: starting log segment 7913 failed for required journal

。_饼干妹妹 提交于 2020-02-28 14:39:29
一台namenode挂掉,另外一台高可用没起起来,journal报错, 解决办法: 1,其实在实际的生产环境中,也很容易发生类似的这种超时情况,所以我们需要把默认的20s超时改成更大的值,比如60s。 我们可以在hadoop/etc/hadoop下的hdfs-site.xml中,加入一组配置: <property> <name>dfs.qjournal.write-txns.timeout.ms</name> <value>60000</value> </property> 2,把zkfailovercontroller去掉,改为手动切换主备nameserver. 修改参数dfs.ha.automatic-failover.enabled=false 当需要切换主备时,使用Hdfs用户(su hdfs), 执行命令hdfs haadmin -failover --forcefence --forceactive nn2 nn1 切换之前同步主备的fsimage和editlog 来源: CSDN 作者: cs123chai 链接: https://blog.csdn.net/u011574074/article/details/104550616

​你应该知道的 HBase 基础,都在这儿了

為{幸葍}努か 提交于 2020-02-28 13:49:18
阿里妹导读 :2006 年10 月Google 发布三架马车之一的《Bigtable:A Distributed Storage System for Strctured Data》论文之后,Powerset 公司就宣布 HBase 在 Hadoop 项目中成立,作为子项目存在。后来,在2010 年左右逐渐成为 Apache 旗下的一个顶级项目。可能是实际应用中包装得太好,很多人对于 HBase 的认识止步于 NoSQL 。今天,蚂蚁金服的南俊从基础开始讲起,希望有助于增强大家在实际业务中对 HBase 的理解。 一、 HBase 简介 HBase 名称的由来是由于其作为 Hadoop Database 存在的,用来存储非结构化、半结构化数据。 要想知道 HBase 的用途,就需要看一看其在 Apache 的 Hadoop 生态系统中的位置,可以看到 HBase 是构建在 HDFS 之上的,这是由于 HBase 内部管理的文件全部都是存储在 HDFS 当中的。同时,MapReduce 这个计算框架在 HBase 之上又提供了高性能的计算能力来处理海量数据。此外还有一些像 Pig、Hive 用来提供高层语言的支持。还有 Sqoop 用来完成传统数据库到 HBase 之间的数据迁移。类似衍生出来的新技术还有很多,有兴趣的同学可以自己去了解一下。 原文链接 来源: oschina 链接:

浅析大数据的技术生态圈(Hadoop,hive,spark)

别说谁变了你拦得住时间么 提交于 2020-02-28 08:40:24
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。 大数据,首先你要能存的下大数据。 传统的文件系统是单机的,不能横跨不同的机器。 HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。 比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大),一台机器慢慢跑也许需要好几天甚至好几周。 对于很多公司来说,单机处理是不可忍受的,比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理,我就面临了如何分配工作

Java操作HDFS示例

一个人想着一个人 提交于 2020-02-28 07:55:57
1. 环境准备 大数据集群一套,没有的可以自己本地搭建一套(参考地址: https://www.jianshu.com/p/2c2ae6490fa0 ) 本地安装JDK 本地安装IDEA或者Eclipse 2. 创建Maven项目 在IDEA工具中创建一个maven项目,并在pom.xml中添加以下依赖: <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.8.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId

MapReduce的计数器

半城伤御伤魂 提交于 2020-02-28 03:45:24
第一部分.Hadoop计数器简述 hadoop计数器: 可以让开发人员以全局的视角来审查程序的运行情况以及各项指标,及时做出错误诊断并进行相应处理。 内置计数器(MapReduce相关、文件系统相关和作业调度相关), 也可以通过http://master:50030/jobdetails.jsp查看 MapReduce的输出: 运行jar包的详细步骤: [root@neusoft-master filecontent]# hadoop jar Traffic.jar /data/HTTP_20130313143750.dat /out2 17/02/01 19:58:17 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 17/02/01 19:58:18 INFO client.RMProxy: Connecting to ResourceManager at neusoft-master/192.168.191.130:8080 17/02/01 19:58:18 WARN mapreduce.JobResourceUploader: Hadoop command

争议 | HDFS、Ceph、GFS、GPFS、Swift、Lustre……容器云选择哪种分布式存储更好?

核能气质少年 提交于 2020-02-27 22:53:33
容器云在使用分布式存储时,HDFS、CEPH、GFS、GPFS、Swift等分布式存储哪种更好? 公司在进行容器云技术选型,想了解相应的分布式存储如何匹配,HDFS、CEPH、GFS、GPFS、Swift等分布式存储,采用哪种更好,主要场景是容器存储应用日志、配置文件、非结构化数据文件等。 问题来自@yin986 某保险软件架构设计师,下文来自twt社区众多同行实践经验分享。 @Steven99 软件架构设计师: 日志文件随着时间会是个很大的量,所以建议考虑统一的日志中心存储处理,可以用es等,备份到hdfs。 配置文件在量上通常不是个问题,可以考虑配置中心统一管理,无需额外存储。 非结构化数据通常是大量的文件,可以采用传统nas或分布式对象存储,当然资金充裕可以采购好的存储,存储性能很重要,根据业务重要程度选择不同的存储。 @Garyy 某保险系统工程师: 容器存储的持久化,对于有状态数据的容器使用场景来说至关重要。因此,在技术选型的时候,需要明确存储的具体需求。存储按照数据类型来分,可以分为块存储,对象存储,文件存储。我们传统的环境中,使用最多的还是块存储和文件存储。随着IT的更新换代,现在对于对象存储(非结构化数据)的需求日益旺盛,对象存储在对一些Key-Value型数据的存储有着天然的优势,再加上其分布式,副本/纠删码等可以匹配传统存储的特性,日益成为温数据

时序数据库 Apache-IoTDB 源码解析之系统架构(二)

孤街醉人 提交于 2020-02-27 20:53:14
上一章聊到时序数据是什么样,物联网行业中的时序数据的特点:存量数据大、新增数据多(采集频率高、设备量多)。详情请见: 时序数据库 Apache-IoTDB 源码解析之前言(一) 打一波广告,欢迎大家访问 IoTDB 仓库 ,求一波 Star 。 这一章主要想聊一聊: 物联网行业的基本系统架构,及使用数据库遇到的需求与挑战 IoTDB 的功能特点及系统架构 车联网 因为本人是在做车联网行业,所以对这个行业的信息了解更深入一些,能够拿到一些更具体的数字来说明这个行业的具体情况。在上一篇文中的数据是出于自己的理解,为了让大家容易明白而编造的数据,但实际情况要复杂的多。 1. 系统架构 1.1 系统简介 以上示意图可能非常简单,但我觉得足够表明一个整体架构。 当一台设备、一辆车连接到协议网关后,便开始了真正的收发数据。一般通信的方式都是基于 tcp ,搞一段二进制协议,所以协议网关基本要做的工作就是完成对连接的管理、完成对数据的收发及编解码。 当数据完成编解码之后一般会发往消息队列当中,一般都是 Kafka 之中。用来解耦生产和消费两端,提供一层缓冲,无论消费服务是死是活还是速度慢,包治百病,甚至还能治未病。 数据发往消息队列的过程中,或之后花活儿就多起来了。但主要的我认为无非还是三种处理方式: 需要将 原始数据 保存入库,这里的原始数据包含二进制数据和解码后的二进制数据。

HDFS的扩容

不想你离开。 提交于 2020-02-27 18:05:45
一、扩容 1.1横向扩容:加节点 https://www.cnblogs.com/the-roc/p/12362926.html 1.2纵向扩容:加硬盘 二、纵向扩容 2.1添加硬盘 2.2在关闭虚拟机状况下 添加硬盘 2.3 分区(两个) fdisk /dev/sdb n:分区   p:查看分区表   w:保存   q:退出当前操作 2.4查看分区信息 2.4格式化分区 mkfs.xfs /dev/sdb1 2.5 挂载 先创建挂载目录 cd / mkdir sdb1 sdb2 2.6设置开机自动挂载 查看UUID blkid 修改配置 vim /etc/fstab 2.7 修改 hdfs-site.xml vim /opt/software/hadoop-2.7.7/etc/hadoop/hdfs-site.xml 2.8启动 start-dfs.sh 来源: https://www.cnblogs.com/the-roc/p/12373159.html