HDFS

How to open HDFS output file using gedit?

心不动则不痛 提交于 2021-02-19 06:35:17
问题 I have installed and executed an mapreduce program successfully in my system(Ubuntu 14.04). I can see the output file as, hadoopuser@arul-PC:/usr/local/hadoop$ bin/hadoop dfs -ls /user/hadoopuser/MapReduceSample-output Found 3 items -rw-r--r-- 1 hadoopuser supergroup 0 2014-07-09 16:10 /user/hadoopuser/MapReduceSample-output/_SUCCESS drwxr-xr-x - hadoopuser supergroup 0 2014-07-09 16:10 /user/hadoopuser/MapReduceSample-output/_logs -rw-r--r-- 1 hadoopuser supergroup 880838 2014-07-09 16:10

Spark 学习(四)RDD自定义分区和缓存

爷,独闯天下 提交于 2021-02-19 05:52:01
一,简介 二,自定义分区规则   2.1 普通的分组TopN实现   2.2 自定义分区规则TopN实现 三,RDD的缓存   3.1 RDD缓存简介   3.2 RDD缓存方式 正文 一,简介    在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。这个分配的规则我们是可以自己定制的。同时我们一直在讨论Spark快,快的方式有那些方面可以体现,RDD缓存就是其中的一个形式,这里将对这两者进行介绍。 二,自定义分区规则   分 组求TopN的方式有多种,这里进行简单的几种。这里尊卑一些数据: 点击下载   2.1 普通的分组TopN实现    实现思路一:先对数据进行处理,然后聚合。最后进行分组排序。 package cn.edu360.sparkTwo import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object SubjectTopNone { def main(args: Array[String]): Unit =

实战 | MySQL Binlog通过Canal同步HDFS

[亡魂溺海] 提交于 2021-02-19 04:02:42
大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 之前 《MySQL Binlog同步HDFS的方案》 介绍性的文章简单介绍了实时同步mysql到hdfs的几种方案,本篇主要记录下利用canal同步mysql到hdfs的具体方案。 本文来自:http://bigdatadecode.club/MysqlToHDFSWithCanal.html canal server 部署 在canal中一个mysql实例对应一个配置文件,配置文件放在conf目录下的一个文件夹中,该文件夹的名字就代表了mysql实例。结构如下 -rwxr-xr-x 1 dc user 2645 Jul 18 14:25 canal.properties -rwxr-xr-x 1 dc user 2521 Jul 17 18:31 canal.properties.bak -rwxr-xr-x 1 dc user 3045 Jul 17 18:31 logback.xml drwxr-xr-x 2 dc user 4096 Jul 17 18:38 spring drwxr-xr-x 2 dc user 4096 Jul 19 11:55 trans1 trans1代表一个mysql实例,该文件夹中有个instance.properties文件

Python write to hdfs file

时光毁灭记忆、已成空白 提交于 2021-02-18 22:00:58
问题 What is the best way to create/write/update a file in remote HDFS from local python script? I am able to list files and directories but writing seems to be a problem. I have searched hdfs and snakebite but none of them give a clean way to do this. 回答1: try HDFS liberary.. its really good You can use write(). https://hdfscli.readthedocs.io/en/latest/api.html#hdfs.client.Client.write Example: to create connection: from hdfs import InsecureClient client = InsecureClient('http://host:port', user=

8.hbase写入流程和读取流程

好久不见. 提交于 2021-02-18 21:44:52
1 hbase写入流程 hbase中无论是新增数据还是修改已有行,其内部流程都是一样的,hbase执行写入时会写到两个地方,write-ahead log 简称wal 也叫hlog 预写式日志 和 MemStore,hbase默认把数据先写到这两个地方,只有这两个地方的变化都写入并确认后,才认为写动作完成。 MemStore是内存中的缓冲区默认64m,HBase会把要写入的数据在这里积累,当填满后 才进行刷写到硬盘上,生成一个HFile。 WAL 使用来排除故障,大型分布式系统,节点故障很常见,设想如果MemStore没有写满刷写到硬件上,那么内存中的数据就会丢失,应对办法就是将数据在写动作完成前就写入WAL,每台节点维护一个WAL,直到WAL写入成功,写动作才算完成。 同时,如果节点宕机恢复,MemStore里的数据会被自动从WAL中恢复到内存中 HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。 事实上,HRegion由一个或者多个Store组成,每个store保存一个columns family。 每个Strore又由一个memStore和0至多个StoreFile组成。 StoreFile以HFile格式保存在HDFS上 2 hbase读取流程 如果想快速访问,通用的原则是,尽可能多的把数据有序,并且放到内存中,hbase实现了这两个要求

基于Cloudera Search设计数据灾备方案

亡梦爱人 提交于 2021-02-18 21:32:29
  当实际项目上线到生产环境中,难以避免一些意外情况,如数据丢失、服务器停机等。对于系统的搜索服务来说,当遇到停机的情况意味着在停机这段时间内,用户都不能通过搜索的相关功能进行访问数据,停机意味着将这一段时间内的数据服务完全停止。如果项目是互联网项目依赖于用户数量,这将严重影响用户访问和用户的产品体验。   针对于这种实际情况,在实际的项目开发维护过程中,如果系统使用的大数据平台是Cloudera公司是CDH,可以考虑使用Cloudera Search来进行数据的增量备份和数据恢复工作。Cloudera Search是Cloudera公司基于Apache的开源项目Solr发布的一个搜索服务,安装非常简单,通过Cloudera Manager的管理页面就可以进行一键式安装,本文将对使用Cloudera Search进行各个应用场景做灾备的方案一一介绍。 1.HDFS - HDFS   一般情况下,一个大数据项目中所有用到的原始数据都会存储HDFS中(Hive和HBase存储也是基于HDFS存储数据)。对HDFS做灾备和数据恢复最直接的方式是在源HDFS集群和备份HDFS集群之间设置数据定期增量更新,例如时间Cloudera BDR工具,基础数据备份之后可以选择使用MapReduce Indexer或者Spark

数据仓库之数据分析

余生颓废 提交于 2021-02-18 07:19:12
1. 数据仓库基本介绍   英文名称为 Data Warehouse ,可简写为DW或DWH。数据仓库的目的是 构建面向分析的集成化数据环境 ,为企业提供 决策支持 (Decision Support)。它出于分析性报告和决策支持目的而创建。   数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 2. 数据仓库的定义   数据仓库是 面向主题的 (Subject-Oriented )、 集成的 (Integrated)、 稳定性的 (Non-Volatile)和 时变的 (Time-Variant )数据集合,用以支持管理决策。 2.1、面向主题   数据仓库中的数据是按照一定的主题域进行组织。   主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.2、集成性   根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。 2.3、稳定性   数据的相对稳定性,数据仓库中的数据只进行新增,没有更新操作、删除操作处理。   反映历史变化,以查询分析为主。 2.4、时变性   数据仓库的数据一般都带有时间属性,随着时间的推移而发生变化,不断地生成主题的新快照 4.

How to make HDFS work in docker swarm

有些话、适合烂在心里 提交于 2021-02-18 06:44:07
问题 I have troubles to make my HDFS setup work in docker swarm. To understand the problem I've reduced my setup to the minimum : 1 physical machine 1 namenode 1 datanode This setup is working fine with docker-compose, but it fails with docker-swarm, using the same compose file. Here is the compose file : version: '3' services: namenode: image: uhopper/hadoop-namenode hostname: namenode ports: - "50070:50070" - "8020:8020" volumes: - /userdata/namenode:/hadoop/dfs/name environment: - CLUSTER_NAME

hive数据的导入导出方式

Deadly 提交于 2021-02-17 23:28:03
导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下 应用场景:大部分的使用,文件几乎都是默认现在本地的 2、load方式,HDFS load data inpath 'hdfs_path' into table tb_name; 将文件移动到了表的路径下 应用场景:更适合大数据量的存储 3、 load方式,overwrite load data inpath 'hdfs_path' overwrite into table tb_name; 应用场景:适合一些重复写入的表(临时表),作为一个过渡使用 4、子查询方式,as create table tb_name as select sql; 应用场景:对于数据查询结果的保存 5、insert方式 传统关系型数据库中,insert是插入一个值 在hive中insert into table后面还是跟一个语句(select语句) insert into table select sql; 举例: create table emp_insert like emp; insert into table emp_insert select * from emp; 6、location 指定一个文件夹,然后将数据导入进去

Spark How to Specify Number of Resulting Files for DataFrame While/After Writing

蓝咒 提交于 2021-02-17 05:25:06
问题 I saw several q/a's about writing single file into hdfs,it seems using coalesce(1) is sufficient. E.g; df.coalesce(1).write.mode("overwrite").format(format).save(location) But how can I specify "exact" number of files that will written after save operation? So my question is; If I have dataframe which consist 100 partitions when I make write operation will it write 100 files? If I have dataframe which consist 100 partitions when I make write operation after calling repartition(50)/coalsesce