HDFS

storm写入到hdfs

北城以北 提交于 2020-03-03 18:29:46
spout package com.heibaiying.component; import org.apache.storm.shade.org.apache.commons.lang.StringUtils; import org.apache.storm.spout.SpoutOutputCollector; import org.apache.storm.task.TopologyContext; import org.apache.storm.topology.OutputFieldsDeclarer; import org.apache.storm.topology.base.BaseRichSpout; import org.apache.storm.tuple.Fields; import org.apache.storm.tuple.Values; import org.apache.storm.utils.Utils; import java.util.*; /** * 产生词频样本的数据源 */ public class DataSourceSpout extends BaseRichSpout { private List<String> list = Arrays.asList("Spark", "Hadoop", "HBase", "Storm",

MapReduce测试wordcount

|▌冷眼眸甩不掉的悲伤 提交于 2020-03-03 17:24:42
1.在mapreduce下新建一个text.txt文件 2.在hdfs上新建输入输出文件夹 3.把text.txt上传到hdfs的input目录中 4.计算 5.显示结果 来源: oschina 链接: https://my.oschina.net/u/4434424/blog/3186704

elasticsearch通过使用快照备份实现数据迁移

风格不统一 提交于 2020-03-03 17:00:21
环境: name3主机 elasticsearch-1.7.2 data1主机 elasticsearch-1.7.2 测试的elasticsearch都为单机版,所以产生的快照文件都在一个目录。 需求: 现在需要将name3中的数据都迁移到data1中 实现步骤: 1、编辑name3的配置文件,增加快照存储地址 vi elasticsearch.yml path.repo: ["/mnt/dfs/elastic/repo"] 2、重启elasticsearch ps -ef|grep elasticsearch kill -9 xxxx /opt/elasticsearch-1.7.2/bin/elasticsearch -Xmx32g -Xms32g -d 3.注册快照 curl -XPUT http://192.168.0.203:9200/_snapshot/my_repo -d ' { "type": "fs", "settings": { "location": "/mnt/dfs/elastic/repo" } }' 执行: curl http://localhost:9200/_snapshot 查看结果 执行快照请求--备份(快照名称:snapshot_20190926) curl -XPUT http://localhost:9200/_snapshot/my

hdfs测试

房东的猫 提交于 2020-03-03 16:51:49
1.登陆http://node002:50070/ 2.向hdfs中上传文件 3.查看结果 4.rm linux中的jdk,从hfds中下载。hdfs的文件是被切割成block块,寻找hdfs的URI,hdfs://node002:9000/下载文件 来源: oschina 链接: https://my.oschina.net/u/4434424/blog/3186675

什么是HDFS?算了,告诉你也不懂。

て烟熏妆下的殇ゞ 提交于 2020-03-03 14:10:00
前言 只有光头才能变强。 文本已收录至我的GitHub精选文章,欢迎Star : https://github.com/ZhongFuCheng3y/3y 上一篇已经讲解了「 大数据入门 」的相关基础概念和知识了,这篇我们来学学HDFS。如果文章有错误的地方,不妨在评论区友善指出~ 一、HDFS介绍 上篇文章已经讲到了,随着数据量越来越大,在一台机器上已经无法存储所有的数据了,那我们会将这些数据分配到不同的机器来进行存储,但是这就带来一个问题: 不方便管理和维护 所以,我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行 统一管理 ,这就有了 分布式文件系统 HDFS 是分布式文件系统的其中一种(目前用得最广泛的一种) 在使用HDFS的时候是非常简单的:虽然HDFS是将文件存储到不同的机器上,但是我去使用的时候是把这些文件 当做 是存储在一台机器的方式去使用(背后却是多台机器在执行): 好比:我调用了一个RPC接口,我给他参数,他返回一个response给我。RPC接口做了什么事其实我都不知道的(可能这个RPC接口又调了其他的RPC接口)----- 屏蔽掉实现细节,对用户友好 明确一下:HDFS就是一个 分布式文件系统 ,一个文件系统,我们用它来做什么? 存数据呀 。 下面,我们来了解一下HDFS的一些知识,能够帮我们更好地去「使用」HDFS 二、HDFS学习

spark操作geoip的domain数据库

本小妞迷上赌 提交于 2020-03-03 09:42:15
val ipv4 = sc.textFile("hdfs://hbase11:9000/sparkTsData/GeoIP2-Domain-Blocks-IPv4.csv").map(_.split(",")).map(p=> (p(1),p(0))) val ipv6 = sc.textFile("hdfs://hbase11:9000/sparkTsData/GeoIP2-Domain-Blocks-IPv6.csv").map(_.split(",")).map(p=> (p(1),p(0))) val ip = ipv4 union ipv6 ip.saveAsTextFile("hdfs://hbase11:9000/sparkTsData/combineIp") val ipSorted = ip.countByKey() val ipSortedRdd = sc.parallelize(ipSorted.toList) ipSortedRdd.collect ipSortedRdd.filter(p=> p._2.toLong > 1).count val ipSortedRddDup = ipSortedRdd.filter(p=> p._2.toLong > 1) 来源: https://www.cnblogs.com/mayidudu/p/5761479

HDFS的读写流程

风格不统一 提交于 2020-03-02 19:40:46
———————————————— 版权声明:本文为CSDN博主「谷悦古月」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/qq_28893679/article/details/80586714 来源: https://www.cnblogs.com/whywy/p/12397422.html

HDFS 小文件的解决思路

笑着哭i 提交于 2020-03-02 18:03:01
我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问,NameNode 在启动的时候会将这些元数据全部加载到内存中。而 HDFS 中的每一个文件、目录以及文件块,在 NameNode 内存都会有记录,每一条信息大约占用150字节的内存空间。由此可见,HDFS 上存在大量的小文件( 这里说的小文件是指文件大小要比一个 HDFS 块大小(在 Hadoop1.x 的时候默认块大小64M,可以通过 dfs.blocksize 来设置;但是到了 Hadoop 2.x 的时候默认块大小为128MB了,可以通过 dfs.block.size 设置) 小得多的文件。 ) 至少会产生以下几个负面影响: 大量小文件的存在势必占用大量的 NameNode 内存,从而影响 HDFS 的横向扩展能力。 另一方面,如果我们使用 MapReduce 任务来处理这些小文件,因为每个 Map 会处理一个 HDFS 块;这会导致程序启动大量的 Map 来处理这些小文件,虽然这些小文件总的大小并非很大,却占用了集群的大量资源! 以上两个负面影响都不是我们想看见的。那么这么多的小文件一般在什么情况下产生?我在这里归纳为以下几种情况:

hive学习(十)------hive运行方式

ⅰ亾dé卋堺 提交于 2020-03-02 14:58:10
1. 命令行运行 2. 脚本运行 3. jdbc运行 4. 图形接口GUI 1.命令行方式运行 这种运行方式需要一台服务器启动 hive --service meta store 服务 另一台服务器启动 hive 注意:这种运行方式可以直接访问hdfs文件系统和本地文件系统。比外面单独访问hdfs速度更快。(由于在启动hive时,hive就和hdfs文件系统建立了连接)。在访问hdfs时,以dfs 为开头,访问本地文件系统时,以!命令 的方式访问 hdfs dfs 的参数 Usage: hadoop fs [generic options] [ - appendToFile <localsrc> . . . <dst> ] [ - cat [ - ignoreCrc ] <src> . . . ] [ - checksum <src> . . . ] [ - chgrp [ - R ] GROUP PATH . . . ] [ - chmod [ - R ] <MODE [ , MODE ] . . . | OCTALMODE> PATH . . . ] [ - chown [ - R ] [OWNER] [ : [GROUP] ] PATH . . . ] [ - copyFromLocal [ - f ] [ - p ] [ - l ] <localsrc> . . .

HDFS的API操作

北城余情 提交于 2020-03-02 13:20:30
大家好, 我是上白书妖! 知识源于积累,登峰造极源于自律 今天我根据以前所以学的一些文献,笔记等资料整理出一些小知识点,有不当之处,欢迎各位斧正 package com . alibaba . hdfs ; import org . apache . hadoop . conf . Configuration ; import org . apache . hadoop . fs . * ; import org . junit . Test ; import java . io . File ; import java . io . IOException ; import java . net . URI ; import java . net . URISyntaxException ; /** * @author 上白书妖 * @date 2020/2/26 21:48 * @Desription:获取客户端的连接对象,操作hadoop集群 * */ public class HdfsClient { /* 创建目录 */ @Test public void testMkdirs ( ) throws IOException , InterruptedException , URISyntaxException { // 1 获取文件系统 Configuration