HDFS

大数据框架开发基础之Sqoop(1) 入门

我们两清 提交于 2020-01-11 00:15:12
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop的基本认知 原理 将导入或导出命令翻译成mapreduce程序来实现。 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 安装 Sqoop的安装也很简单,首先我们需要有有一个 Sqoop安装包 ,这个包老夫也提供了。 我们在如下目录中: drwxr-xr-x 2 corp corp 4096 Dec 19 2017 bin -rw-rw-r-- 1 corp corp 55089 Dec 19 2017 build.xml -rw-rw-r-- 1 corp corp 47426 Dec 19 2017 CHANGELOG.txt -rw-rw-r-- 1 corp corp 9880 Dec 19 2017 COMPILING.txt drwxr-xr-x 2 corp corp 4096 Dec 19 2017 conf drwxr-xr-x 5 corp corp 4096 Dec 19 2017 docs drwxr

学习笔记--Hadoop

心已入冬 提交于 2020-01-10 22:18:52
参考来源: http://hadoop.apache.org/docs/r1.0.4/cn/index.html Hadoop安装 单机模式 伪分布式模式 完全分布式模式 Hadoop集群搭建 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。 Hadoop 命令 archive 用法:hadoop archive -archiveName NAME * 创建一个hadoop档案文件 distcp 用法:hadoop distcp 递归地拷贝文件或目录 fs 用法:hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 运行一个常规的文件系统客户端。 fsck 用法:hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 运行HDFS文件系统检查工具 jar 用法:hadoop jar [mainClass] args... 运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中,使用这个命令执行。 job 用法

Re-use files in Hadoop Distributed cache

六眼飞鱼酱① 提交于 2020-01-10 20:08:30
问题 I am wondering if someone can explain how the distributed cache works in Hadoop. I am running a job many times, and after each run I notice that the local distributed cache folder on each node is growing in size. Is there a way for multiple jobs to re-use the same file in the distributed cache? Or is the distributed cache only valid for the lifetime of any individual job? The reason I am confused is that the Hadoop documentation mentions that "DistributedCache tracks modification timestamps

Hive on Tez 环境配置

北慕城南 提交于 2020-01-10 18:59:46
文章目录 1.上传安装包 2.解压 3.上传tar包到hdfs 4.修改配置文件 4.1tez-site.xml 4.2mapred-site.xml 4.3hadoop-env.sh 5.远程发送配置文件 6.测试Tez 1.上传安装包 这里直接选择bin包,省去编译的麻烦 put c:/apache-tez-0.9.1-bin.tar.gz 2.解压 tar -xzvf apache-tez-0.9.1-bin.tar.gz -C /home/hadoop/apps/ 3.上传tar包到hdfs 首先创建一个文件夹 hdfs dfs -mkdir /user/tez 将tez文件夹里share文件夹下的tez.tar.gz上传上去 hdfs dfs -put /home/hadoop/apps/apache-tez-0.9.1-bin/share/tez.tar.gz /user/tez/ 4.修改配置文件 4.1tez-site.xml cd /home/hadoop/apps/hadoop-2.7.6/etc/hadoop 新建一个tez-site.xml,添加下面的配置 vi tez-site.xml < configuration > < property > < name > tez.lib.uris </ name > < value > ${fs

分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)

痴心易碎 提交于 2020-01-10 17:39:19
分布式大数据处理系统概览(一)   本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考 大夏学堂 ,下面主要整理 HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph 有关的内容。 分布式大数据处理系统大纲 分布式大数据处理系统概览(一): HDFS/MapReduce/Spark 分布式大数据处理系统概览(二): Yarn/Zookeeper 分布式大数据处理系统概览(三): Storm/SparkStreaming 分布式大数据处理系统概览(四): Lambda/DataFlow/Flink/Giraph   第一节部分主要总结分布式系统的目标、性质;简要介绍几种分布式计算的编程模型;介绍计算机进程与线程关系及远程调用方式;介绍文件系统DFS、介绍Hadoop的文件系统HDFS;介绍分布式计算批处理系统MapReduce和Spark。 0.绪论 0.1分布式系统的目标 0.2 大数据的五个特性(5V) (1)数量Volume (2)种类Variety (3)价值Value (4)真实性Veracity (5)速度Velocity 0.3 分布式计算生态圈 0.4分布式计算底层系统 (1

Hive基础语句操作

末鹿安然 提交于 2020-01-10 16:18:39
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Hive 完整的 DDL 建表语法规则 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [ db_name .] table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [( col_name data_type [COMMENT col_comment ], ... [ constraint_specification ])] [COMMENT table_comment ] [PARTITIONED BY ( col_name data_type [COMMENT col_comment ], ...)] [CLUSTERED BY ( col_name , col_name , ...) [SORTED BY ( col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [SKEWED BY ( col_name , col_name , ...) -- (Note: Available in Hive 0.10.0 and later)] ON (( col_value , col_value , ...), ( col

初识 HBase

此生再无相见时 提交于 2020-01-10 14:58:38
HBase简介 对大数据领域有一定了解的小伙伴对HBase应该不会陌生,HBase是Apache基金会开源的一个分布式非关系型数据库,属于Hadoop的组件。它使用Java编写,需运行于HDFS文件系统之上。HBase与Hadoop中的其他组件一样,可以运行在廉价硬件上,并可提供数10亿行 X 数百万列的大数据存储、管理能力,以及随机访问和实时读/写能力。HBase的设计模型参考了Google的 Bigtable ,可以说是Bigtable的开源实现版本。 HBase特性 数据容量大 ,单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性 多版本 ,每一列存储的数据可以有多个version 稀疏性 ,为空的列并不占用存储空间,表可以设计的非常稀疏 读写强一致 ,非 “最终一致性” 的数据存储,使得它非常适合高速的计算聚合 自动分片 ,通过Region分散在集群中,当行数增长的时候,Region也会自动的切分和再分配 Hadoop/HDFS集成 ,和HDFS开箱即用,不用太麻烦的衔接。扩展性强,只需要增加DataNode就可以增加存储空间 丰富的“简洁,高效”API ,提供了Thrift/REST API,Java API等方式对HBase进行访问 块缓存 , 布隆过滤器 ,可以高效的列查询优化 操作管理 ,Hbase提供了内置的web界面来操作

Hive基础

*爱你&永不变心* 提交于 2020-01-10 03:21:10
概述 1.什么是Hive Hive是建立在Hadoop上的数据仓库基础架构。可以将结构化的数据映射为一张数据库表,并提供类SQL查询功能。 详解 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 它提供了一系列的工具,可以用来进行数据 提取转化加载(ETL) ,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 架构 Hive提供了一个SQL命令的操作接口,允许用户可以使用类似SQL的Hive的Query Language执行一些离线的SQL分析。但是Hive和传统的数据库不同,Hive只是构建在Hadoop的MapReduce之上的SQL解析工具, 并不参与数据的管理和存储 ,Hive中所有的数据都是在运行任务的时候才会真正的加载。 具体流程为: 1.Hive读取用户的SQL脚本。 2.到数据库中(Mysql)中查询所映射的元数据信息。(Mysql主要负责存储Hive逻辑表到HDFS物理文件的映射信息,因此,Hive在做计算之前,需要查询Mysql生成逻辑计划,然后生成MapReduce可以执行的物理计划) 3.生成SQL的逻辑执行计划。 4.由MapReduce执行物理计划。 5.读取MapReduce的结构。 6.将结构返回用户。

Apache Pig permissions issue

穿精又带淫゛_ 提交于 2020-01-10 03:00:08
问题 I'm attempting to get Apache Pig up and running on my Hadoop cluster, and am encountering a permissions problem. Pig itself is launching and connecting to the cluster just fine- from within the Pig shell, I can ls through and around my HDFS directories. However, when I try and actually load data and run Pig commands, I run into permissions-related errors: grunt> A = load 'all_annotated.txt' USING PigStorage() AS (id:long, text:chararray, lang:chararray); grunt> DUMP A; 2011-08-24 18:11:40,961

关键数据结构

☆樱花仙子☆ 提交于 2020-01-10 02:57:42
FSDirectory NIOFSDirectory 性能对比 lucene/solr FSDirectory NIOFSDirectory 性能测试对比与Http11NioProtocol 文章分类:互联网 lucene 2.4 开始有一个 NIOFSDirectory 实现,使用 java.nio's FileChannel 读取文件。官方说:在大多数非 windows 平台下,多个线程共用单个 searcher 比 FSDirectory(在同一时刻只能一个线程使用 searcher)可以提高查询的吞吐量。 lucene 2.4 的 CHANGE.TXT 说明: 21. LUCENE-753: Added new Directory implementation org.apache.lucene.store.NIOFSDirectory, which uses java.nio's FileChannel to do file reads. On most non-Windows platforms, with many threads sharing a single searcher, this may yield sizable improvement to query throughput when compared to FSDirectory, which