HDFS

hive的使用

一个人想着一个人 提交于 2020-03-16 00:12:26
1.使表的记录字段与数据对应起来,需要使用如下: 2.创建表 3.mysql数据库查看新建的hive元数据 创建的表存储在hdfs上 hdfs上查看创建表文件的位置 4.本地系统创建文件,vi 源数据 5.把要处理的数据从本地导入的表中(hdfs中查看) 6.操作hive 来源: oschina 链接: https://my.oschina.net/u/4434424/blog/3195514

hadoop 3.0.0 安装配置

会有一股神秘感。 提交于 2020-03-13 14:58:30
环境描述 根据需求,部署hadoop-3.0.0基础功能架构,以三节点为安装环境,操作系统CentOS 7 x64; openstack创建三台虚拟机,开始部署; IP地址 主机名 10.10.204.31 master 10.10.204.32 node1 10.10.204.33 node2 功能节点规划 master node1 node2 NameNode DataNode DataNode DataNode HQuorumPeer NodeManager NodeManager ResourceManager SecondaryNameNode HMaster 三节点执行初始化操作; 1.更新系统环境; yum clean all && yum makecache fast && yum update -y && yum install -y wget vim net-tools git ftp zip unzip 2.根据规划修改主机名; hostnamectl set-hostname master hostnamectl set-hostname node1 hostnamectl set-hostname node2 3.添加hosts解析; vim /etc/hosts 10.10.204.31 master 10.10.204.32 node1 10.10

Python: save pandas data frame to parquet file

。_饼干妹妹 提交于 2020-03-13 05:55:08
问题 Is it possible to save a pandas data frame directly to a parquet file? If not, what would be the suggested process? The aim is to be able to send the parquet file to another team, which they can use scala code to read/open it. Thanks! 回答1: Pandas has a core function to_parquet() . Just write the dataframe to parquet format like this: df.to_parquet('myfile.parquet') You still need to install a parquet library such as fastparquet . If you have more than one parquet library installed, you also

hdfs报错 'There are 10 missing blocks...'

一笑奈何 提交于 2020-03-12 12:20:47
场景 今天本要部署spark on yarn,因为要在hdfs创建一些共享文件,于是到hdfs web UI去看了一下,结果发现下面的错误,顺手处理一下。 刚刚接触大数据,还是有点小慌张的,学习了... Tips: hdfs集群下线DataNode要严格遵守顺序,不然... (PS:大数据开发人员蜜汁自信纯手动搭建hadoop,不知道接手后还有多少坑要踩,奉劝大家不要重复造轮子。。。 移步CDH ) 错误详情 There are 10 missing blocks. The following files may be corrupted: 排查错误 根据提示信息执行 fsck 执行命令: hdfs fsck /user/work02 查看丢失的文件详细信息 以上 MISSING 状态的文件和web界面的一致。 查看文件是否存在 直接查看文件,显示该文件是存在的: hdfs dfs -ls /path/to/file 查看文件内容 检查文件内容是否可查看: hdfs dfs -tail /path/to/file 即,当前存活的node中没有该block,该block存在于Dead nodes。 追溯处理 经查资料判断:这种状态下的block是没办法再恢复的了。 原因:之前进行过缩容,文件位于被缩容的datanode节点,已丢失。 修复:处理该 warning

Hadoop高可用集群

故事扮演 提交于 2020-03-12 07:51:16
1.简介 若HDFS集群中只配置了一个NameNode,那么当该NameNode所在的节点宕机,则整个HDFS就不能进行文件的上传和下载。 若YARN集群中只配置了一个ResourceManager,那么当该ResourceManager所在的节点宕机,则整个YARN就不能进行任务的计算。 * Hadoop依赖Zookeeper进行各个模块的HA配置,其中状态为Active的节点对外提供服务,而状态为StandBy的节点则只负责数据的同步,在必要时提供快速故障转移。 Hadoop各个模块剖析: https://www.cnblogs.com/funyoung/p/9889719.html Hadoop集群管理: https://www.cnblogs.com/funyoung/p/9920828.html 2.HDFS HA集群 2.1 模型 当有两个NameNode时,提供哪个NameNode地址给客户端? 1.Hadoop提供了NameService进程,其是NameNode的代理,维护NameNode列表并存储NameNode的状态,客户端直接访问的是NameService,NameService会将请求转发给当前状态为Active的NameNode。 2.当启动HDFS时,DataNode将同时向两个NameNode进行注册。

kafka connect分布式安装

我的梦境 提交于 2020-03-11 17:38:30
kafka connect分布式部署 Apache Kafka 消息分发组件,数据采集后先入Kafka Schema Registry Schema管理服务,消息出入kafka、入hdfs时,给数据做序列化/反序列化处理。 Kafka Connect 提供kafka到其他存储的管道服务,此次焦点是从kafka到hdfs,并建立相关HIVE表。 Kafka Rest Proxy 提供kafka的Rest API服务。 Kafka Clients 提供Client编程所需SDK。 说明:以上服务除Apache kafka由Linkedin始创并开源,其他组件皆由Confluent公司开发并开源。上图解决方案由confluent提供。 基本逻辑步骤 数据通过Kafka Rest/Kafka Client写入Kafka; kafka Connect任务作为consumer从kafka订阅数据; kafka Connect任务建立HIVE表和hdfs文件的映射关系; kafka connect任务收到数据后,以指定格式,写入指定hdfs目录; 实际操作: 启动kafka服务 首先进行集群间ssh免密登陆 后期为了测压可控,自己单独搭建了,在所有节点启动 安装zookeeper 具体安装见博文 ZOOKEEPER安装及测试 安装kafka 可以采取集成或自己单独搭建 kafka

HDFS体系结构及存储原理

♀尐吖头ヾ 提交于 2020-03-11 15:21:10
  首先要了解的是,HDFS采用的是主从架构,即一个主节点(名称节点),多个从节点(数据节点),主节点起到管家作用,负责提供数据目录服务,从节点都是数据节点负责数据存储。   我们都知道文件系统中都是有命名空间的概念的,HDFS也不例外,它的命名空间只有一个,里面包含了目录、文件、块,它的使用和传统的文件体系是一样的,我们访问HDFS文件系统,也和传统的访问方式一样通过 / + 目录名称访问。   提到访问数据,就必须知道HDFS的通信协议。所有的HDFS通信协议都是构建在TCP/IP的基础之上,而且不同组件之间,通信协议会有些差别,比如,客户端向名称节点发起的TCP连接,是使用客户端的协议和名称节点进行交互。而整个集群中名称节点和数据节点之间的交互是使用专门的的数据节点协议进行交互的,另外经常涉及到客户端读取数据,就需要客户端和数据节点进行交互,它通过远程调用RPC来实现。整个HDFS客户端实际上就是一个库,它向外界暴露HDFS文件系统的接口而且还隐藏了后台实现的复杂性,整个操作除了可以通过JAVA API实现,也可以直接通过shell命令实现。   对于分布式文件系统中经常遇到的几个问题,HDFS给出了如下解决方案:   (1)冗余数据保存的问题:数据以块为单位,每个块都被冗余保存,一般一个数据块被默认保存为三份。这种设计方式的好处:     1)加快数据传输速度

HDFS

∥☆過路亽.° 提交于 2020-03-10 10:44:50
HDFS负责将数据存储到各个节点,以及管理它们。 来源: https://www.cnblogs.com/lihui001/p/12454095.html

大数据相关认识,大数据、物联网和云计算之间的关系,hadoop简介

孤人 提交于 2020-03-10 06:52:50
大数据相关认识 说道大数据,谷咕咕就很烦了,因为大学期间,做过爬虫,数据抓取,安装过Hadoop和hive,但是都不知道干嘛的,起码爬虫还知道,通过正则表达式将网页中的有效信息爬取下来。但是Hadoop和Hive一直是在Ubuntu上安装,不同什么意思,以至于后来看到,别人说Hadoop和Hive的时候就很尴尬,装过竟然不知道什么用。 所今天就稍微的记录一下。 大数据的特点 在网上常常听到4v,说的就是大数据的特点四个英文单词的首字母。 Volume(数据量大) Velocity(数据速度快) Variety(数据类型繁多) Value(数据价值密度低) 之前看文章时候5v的,他多了一个Veracity(真实性) 大数据的关键技术 数据采集: 利用轻量级的数据库手法客户端的数据,进行初步的查询和处理。 问题:是高并发。 工具:MySQL、Oracle 数据分析: 将数据快速导入到一个集中的分布式数据库或者,分布式存储集群,利用分布式技术存储大量数据,进行查询和分类汇总。 问题:导入数据量大,查询数据量大,查询请求多。 工具:Hadoop、hive 数据挖掘: 基于前面的数据进行数据挖掘、来满足高级别的数据分析需求。 问题:算法复杂,并涉及的数据量和计算量都大。 工具:R、Hadoop mahout Hadoop Hadoop是分布式批量处理系统,对大型数据集进行扫描,以产生其结果。