HDFS | 易学教程

大数据框架开发基础之Sqoop(1) 入门

阅读更多关于大数据框架开发基础之Sqoop(1) 入门

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop的基本认知原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。安装 Sqoop的安装也很简单，首先我们需要有有一个 Sqoop安装包，这个包老夫也提供了。我们在如下目录中: drwxr-xr-x 2 corp corp 4096 Dec 19 2017 bin -rw-rw-r-- 1 corp corp 55089 Dec 19 2017 build.xml -rw-rw-r-- 1 corp corp 47426 Dec 19 2017 CHANGELOG.txt -rw-rw-r-- 1 corp corp 9880 Dec 19 2017 COMPILING.txt drwxr-xr-x 2 corp corp 4096 Dec 19 2017 conf drwxr-xr-x 5 corp corp 4096 Dec 19 2017 docs drwxr

学习笔记--Hadoop

阅读更多关于学习笔记--Hadoop

参考来源： http://hadoop.apache.org/docs/r1.0.4/cn/index.html Hadoop安装单机模式伪分布式模式完全分布式模式 Hadoop集群搭建通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。 Hadoop 命令 archive 用法：hadoop archive -archiveName NAME * 创建一个hadoop档案文件 distcp 用法：hadoop distcp 递归地拷贝文件或目录 fs 用法：hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 运行一个常规的文件系统客户端。 fsck 用法：hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 运行HDFS文件系统检查工具 jar 用法：hadoop jar [mainClass] args... 运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中，使用这个命令执行。 job 用法

Re-use files in Hadoop Distributed cache

阅读更多关于 Re-use files in Hadoop Distributed cache

问题 I am wondering if someone can explain how the distributed cache works in Hadoop. I am running a job many times, and after each run I notice that the local distributed cache folder on each node is growing in size. Is there a way for multiple jobs to re-use the same file in the distributed cache? Or is the distributed cache only valid for the lifetime of any individual job? The reason I am confused is that the Hadoop documentation mentions that "DistributedCache tracks modification timestamps

Hive on Tez 环境配置

阅读更多关于 Hive on Tez 环境配置

文章目录 1.上传安装包 2.解压 3.上传tar包到hdfs 4.修改配置文件 4.1tez-site.xml 4.2mapred-site.xml 4.3hadoop-env.sh 5.远程发送配置文件 6.测试Tez 1.上传安装包这里直接选择bin包，省去编译的麻烦 put c:/apache-tez-0.9.1-bin.tar.gz 2.解压 tar -xzvf apache-tez-0.9.1-bin.tar.gz -C /home/hadoop/apps/ 3.上传tar包到hdfs 首先创建一个文件夹 hdfs dfs -mkdir /user/tez 将tez文件夹里share文件夹下的tez.tar.gz上传上去 hdfs dfs -put /home/hadoop/apps/apache-tez-0.9.1-bin/share/tez.tar.gz /user/tez/ 4.修改配置文件 4.1tez-site.xml cd /home/hadoop/apps/hadoop-2.7.6/etc/hadoop 新建一个tez-site.xml，添加下面的配置 vi tez-site.xml < configuration > < property > < name > tez.lib.uris </ name > < value > ${fs

分布式大数据系统概览（HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph）

阅读更多关于分布式大数据系统概览（HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph）

分布式大数据处理系统概览（一）本博文主要对现如今分布式大数据处理系统进行概括整理，相关课程为华东师范大学数据科学与工程学院《大数据处理系统》，参考大夏学堂，下面主要整理 HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph 有关的内容。分布式大数据处理系统大纲分布式大数据处理系统概览（一）： HDFS/MapReduce/Spark 分布式大数据处理系统概览（二）： Yarn/Zookeeper 分布式大数据处理系统概览（三）： Storm/SparkStreaming 分布式大数据处理系统概览（四）： Lambda/DataFlow/Flink/Giraph 第一节部分主要总结分布式系统的目标、性质；简要介绍几种分布式计算的编程模型；介绍计算机进程与线程关系及远程调用方式；介绍文件系统DFS、介绍Hadoop的文件系统HDFS；介绍分布式计算批处理系统MapReduce和Spark。 0.绪论 0.1分布式系统的目标 0.2 大数据的五个特性（5V）（1）数量Volume （2）种类Variety （3）价值Value （4）真实性Veracity （5）速度Velocity 0.3 分布式计算生态圈 0.4分布式计算底层系统（1

Hive基础语句操作

阅读更多关于 Hive基础语句操作

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Hive 完整的 DDL 建表语法规则 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [ db_name .] table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [( col_name data_type [COMMENT col_comment ], ... [ constraint_specification ])] [COMMENT table_comment ] [PARTITIONED BY ( col_name data_type [COMMENT col_comment ], ...)] [CLUSTERED BY ( col_name , col_name , ...) [SORTED BY ( col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [SKEWED BY ( col_name , col_name , ...) -- (Note: Available in Hive 0.10.0 and later)] ON (( col_value , col_value , ...), ( col

初识 HBase

阅读更多关于初识 HBase

HBase简介对大数据领域有一定了解的小伙伴对HBase应该不会陌生，HBase是Apache基金会开源的一个分布式非关系型数据库，属于Hadoop的组件。它使用Java编写，需运行于HDFS文件系统之上。HBase与Hadoop中的其他组件一样，可以运行在廉价硬件上，并可提供数10亿行 X 数百万列的大数据存储、管理能力，以及随机访问和实时读/写能力。HBase的设计模型参考了Google的 Bigtable ，可以说是Bigtable的开源实现版本。 HBase特性数据容量大，单表可以有百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性多版本，每一列存储的数据可以有多个version 稀疏性，为空的列并不占用存储空间，表可以设计的非常稀疏读写强一致，非 “最终一致性” 的数据存储，使得它非常适合高速的计算聚合自动分片，通过Region分散在集群中，当行数增长的时候，Region也会自动的切分和再分配 Hadoop/HDFS集成，和HDFS开箱即用，不用太麻烦的衔接。扩展性强，只需要增加DataNode就可以增加存储空间丰富的“简洁，高效”API ，提供了Thrift/REST API，Java API等方式对HBase进行访问块缓存，布隆过滤器，可以高效的列查询优化操作管理，Hbase提供了内置的web界面来操作

Hive基础

阅读更多关于 Hive基础

概述 1.什么是Hive Hive是建立在Hadoop上的数据仓库基础架构。可以将结构化的数据映射为一张数据库表，并提供类SQL查询功能。详解 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。架构 Hive提供了一个SQL命令的操作接口，允许用户可以使用类似SQL的Hive的Query Language执行一些离线的SQL分析。但是Hive和传统的数据库不同，Hive只是构建在Hadoop的MapReduce之上的SQL解析工具，并不参与数据的管理和存储，Hive中所有的数据都是在运行任务的时候才会真正的加载。具体流程为： 1.Hive读取用户的SQL脚本。 2.到数据库中(Mysql)中查询所映射的元数据信息。(Mysql主要负责存储Hive逻辑表到HDFS物理文件的映射信息，因此，Hive在做计算之前，需要查询Mysql生成逻辑计划，然后生成MapReduce可以执行的物理计划) 3.生成SQL的逻辑执行计划。 4.由MapReduce执行物理计划。 5.读取MapReduce的结构。 6.将结构返回用户。

Apache Pig permissions issue

阅读更多关于 Apache Pig permissions issue

问题 I'm attempting to get Apache Pig up and running on my Hadoop cluster, and am encountering a permissions problem. Pig itself is launching and connecting to the cluster just fine- from within the Pig shell, I can ls through and around my HDFS directories. However, when I try and actually load data and run Pig commands, I run into permissions-related errors: grunt> A = load 'all_annotated.txt' USING PigStorage() AS (id:long, text:chararray, lang:chararray); grunt> DUMP A; 2011-08-24 18:11:40,961

关键数据结构

阅读更多关于关键数据结构

FSDirectory NIOFSDirectory 性能对比 lucene/solr FSDirectory NIOFSDirectory 性能测试对比与Http11NioProtocol 文章分类:互联网 lucene 2.4 开始有一个 NIOFSDirectory 实现，使用 java.nio's FileChannel 读取文件。官方说：在大多数非 windows 平台下，多个线程共用单个 searcher 比 FSDirectory（在同一时刻只能一个线程使用 searcher）可以提高查询的吞吐量。 lucene 2.4 的 CHANGE.TXT 说明： 21. LUCENE-753: Added new Directory implementation org.apache.lucene.store.NIOFSDirectory, which uses java.nio's FileChannel to do file reads. On most non-Windows platforms, with many threads sharing a single searcher, this may yield sizable improvement to query throughput when compared to FSDirectory, which

订阅 HDFS