hdfs命令

hdfs数据到hive中,以及hdfs数据隐身理解

匿名 (未验证) 提交于 2019-12-02 20:37:20
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_info/* 1.提前(在hive中)准备好表, user_center_enterprise_info2 ,用于接收hdfs数据。 CREATE TABLE user_center_enterprise_info2 ( `id` string , `name` string ); 2.使用load data方式,加载数据 ,(已执行数据库选择命令 hive>use testdb;) 以下 相对/绝对 两种路径加载都行 hive > load data inpath 'hive_g2park/user_center_enterprise_info/*' into table user_center_enterprise_info2 ; hive > load data inpath '/user/user_w/hive_g2park/user_center_enterprise_info/*' into table user_center_enterprise_info2 ; 此时: hdfs dfs -ls /user/user_w/hive_g2park/user_center

hadoop伪分布模式的配置和一些常用命令

我怕爱的太早我们不能终老 提交于 2019-12-02 16:41:49
大数据的发展历史 3V:volume、velocity、variety(结构化和非结构化数据)、value(价值密度低) 大数据带来的技术挑战 存储容量不断增加 获取有价值的信息的难度:搜索、广告、推荐 大容量、多类型、高时效的数据处理场景,使得从数据中获取有价值的信息变得非常困难 hadoop理论概述 hadoop发展简史 apache nutch项目,是一个开源网络搜索引擎 谷歌发表GFS,是HDFS的前身 谷歌发表了mapreduce分布式编程思想 nutch开源实现了mapreduce hadoop简介 是apache软件基金会下的一个开源分布式计算平台 java语言,跨平台性 在分布式环境下提供了海量数据的处理能力 几乎所有厂商都围绕hadoop提供开发工具 hadoop核心 分布式文件系统HDFS 分布式计算MapReduce hadoop特性 高可靠性 高效性 高可扩展性 高容错性 成本低 linux 支持多种编程语言 hadoop生态系统 HDFS:分布式文件系统 mapreduce:分布式并行编程模型 yarn:资源管理和调度器 tez运行在yarn之上的下一代hadoop查询处理框架,他会将很多的mr任务分析优化后构建一个邮箱无环图,保证最高的工作效率 hive:hadoop上的数据仓库 hbase:非关系型分布式数据库 pig

搭建Hadoop伪分布式集群

試著忘記壹切 提交于 2019-12-02 16:35:11
目录 版本与环境 准备 添加环境变量 配置Hadoop 克隆节点 配置主机名与IP 设置节点间免密登录 配置脚本文件 启动并验证 运行测试用例 版本与环境 虚拟机:VMware Workstation Pro 15 Linux镜像: Ubuntu-18.04.2-live-server-amd64.iso Java版本: jdk-8u231-linux-x64.tar.gz Hadoop版本: version-3.1.3 准备 (PS:以下配置需在克隆slave之前完成) 安装Ubuntu(PS:记得安装OpenSSH) 解压hadoop和jdk: tar -zxvf xxx.tar.gz 移动hadoop根目录: mv hadoop-3.1.3 /usr/local/hadoop3 移动jdk根目录: mv jdk-1.8.0_231 /usr/local/jdk1.8 添加环境变量 执行以下命令将环境变量写入 .bashrc # cd ~ # vim .bashrc java variables export JAVA_HOME=/usr/local/jdk1.8/ export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib export PATH=$JAVA_HOME/bin:

hadoop面试记录(二)

人盡茶涼 提交于 2019-12-02 16:21:57
最近面试面试题,回答自己总结的,有不对的地方欢迎大家留言指正 1 hadoop中配置文件有哪些,各自作用? hadoop-env.sh JAVA_HOME,HADOOP_CONF_DIR,HADOOP_LOG_DIR,HADOOP_PID_DIR,HADOOP_CLASSPATH,hadoop相关进程JVM参数 其他 core-site.xml fs.defaultFS,hadoop.tmp.dir,ha.zookeeper.quorum,io.compression.codecs,io.file.buffer.size hdfs-site.xml namenode的url信息,dfs.name.dir,dfs.data.dir,dfs.replication,dfs.namenode.shared.edits.dir, dfs.journalnode.edits.dir,dfs.hosts.exclude slaves datanode列表 mapred-site.xml mapreduce.framework.name,mapreduce.map.output.compress.codec yarn-site.xml resourcemanager信息 excludes 排除节点列表 2 hdfs存储机制是什么 1. HDFS开创性地设计出一套文件存储方式

大数据学习杂记二

戏子无情 提交于 2019-12-02 15:08:28
1.HDFS:Hadoop分布式文件系统 2.Hadoop支持很多shell命令:hadoop fs(查看HDFS文件系统的目录结构,适用于任何不同的文件系统)、hdaoop dfs(上传和下载数据,只适用于HDFS文件系统)、hdfs dfs(创建文件,只适用于HDFS文件系统)。 3.在HBase数据库中不需要创建数据库,只要直接创建表就可以了: hbase > create 'student','Sname','Ssex' 4.行键:一行数据的标志,类似于mysql中的id,不同行的行键不一样。 5.对于HBase而言,在创建表时,不需要自行创建行键,系统会默认一个属性作为行键,通常是把put命令操作中跟在表名后的第一个数据作为行键。 6.Intellij IDEA: 来源: https://blog.csdn.net/yuandawang/article/details/102764131

Hadoop(HDFS)常用命令--必须掌握!

a 夏天 提交于 2019-12-02 15:01:49
文章目录 1.查看HDFS文件系统下所有的文件及目录 2.从本地文件系统中复制单个或多个源路径到目标文件系统 3.从本地文件系统中复制单个文件到目标文件系统 4.从本地文件系统中复制单个文件到目标文件系统并将文件从本地删除 5.将路径指定文件的内容输出到stdout(cat) 6.将路径指定文件的内容输出到stdout(text) 7.其余与Linux Shell命令大致一样 1.查看HDFS文件系统下所有的文件及目录 hadoop fs -ls / 2.从本地文件系统中复制单个或多个源路径到目标文件系统 使用方法:hadoop fs -put <localsrc> ... <dst> 返回值: 成功返回0,失败返回-1。 3.从本地文件系统中复制单个文件到目标文件系统 使用方法:hadoop fs -copyFromLocal <localsrc> URI 4.从本地文件系统中复制单个文件到目标文件系统并将文件从本地删除 使用方法:dfs -moveFromLocal <src> <dst> 5.将路径指定文件的内容输出到stdout(cat) 使用方法:hadoop fs -cat URI [URI …] 6.将路径指定文件的内容输出到stdout(text) 7.其余与Linux Shell命令大致一样 命令 用法 hadoop fs -mkdir 使用方法:hadoop

hadoop工作流引擎azkaban

为君一笑 提交于 2019-12-02 14:56:09
介绍 Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是 http://azkaban.github.io/azkaban2/ ,它的的主要特点有下面几个: 兼容所有Hadoop版本(1.x,2.x,CDH) 可以通过WebUI进行管理配置,操作方便 可以通过UI配置定时调度 扩展性好,可针对某一问题开发组件(目前有三个插件HDFSBrowser,JobtypePlugins和HadoopSecurityManager) 有权限管理模块 可以通过WebUI跟踪Flow或者Job的执行情况 可以设置邮件提醒 可以为定时Flow或者Flow中的某个Job配置执行时间长度的控制,如果执行时间超过了所设的时间,可以发送警告邮件给相关人员或者Kill掉相应设置的Flow或Job 可以重试失败Job Azkaban也有一些局限性(尚待挖掘),例如任务之间的依赖,不能够指定部分完成(比如我们希望任务A依赖于B,但是并不是B完全执行完成A才可以启动,而是B的某个阶段完成的话就可以启动A) Azkaban主要是解决Hadoop Job的依赖关系,它包括三个组件,组件之间的关系如下图所示

【Zookeeper】利用zookeeper搭建Hdoop HA高可用

China☆狼群 提交于 2019-12-02 14:48:42
利用zookeeper搭建Hdoop HA高可用 HA概述 所谓HA(high available),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。 NameNode主要在以下两个方面影响HDFS集群 ​ NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 ​ NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用 HDFS HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将NameNode很快的切换到另外一台机器。 HDFS-HA工作机制 ​ 通过双namenode消除单点故障 HDFS-HA工作要点 (1)元数据管理方式需要改变: ​ 内存中各自保存一份元数据; ​ Edits日志只有Active状态的namenode节点可以做写操作; ​ 两个namenode都可以读取edits; ​ 共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现); (2)需要一个状态管理功能模块 ​

集群间的数据的拷贝

二次信任 提交于 2019-12-02 10:29:59
采用distcp命令实现两个Hadoop集群之间的递归数据复制 hadoop distcp hdfs://haoop112:9000/hello.txt hdfs://hadoop113:9000/hello.txt hadoop distcp 源文件 目的地 来源: https://blog.csdn.net/qq_41813208/article/details/102752536

hadoop初体验

瘦欲@ 提交于 2019-12-02 03:20:34
今日课程内容大纲 01) hadoop的简介 02) hadoop集群的搭建 发行版本 集群规划 hadoop源码编译(了解) hadoop集群搭建 03) hadoop集群启动与初体验 04) MapReduce的历史记录 05) HDFS的垃圾桶机制 01--Apache Hadoop--介绍和发展历程 01) hadoop的介绍 00) hadoop1.x和hadoop2.x的区别: yarn(资源管理) 解决了单点故障问题 提高资源的利用率 01) 狭义解释:特指Apache的一款java语言开发的开源软件,由一下三部分组成: HDFS: 解决海量数据存储的hadoop分布式文件系统 MapReduce: 解决海量数据分布式计算问题 YARN: 解决分布式架构中资源管理和任务调度 02) 广义解释:整个基于hadoop的生态系统,包括大数据处理流程中的各个阶段的软件 hive hbase zookeeper oozie sqoop flume impala storm spark flink kylin...... 02) hadoop发展历史 01) hadoop的创始人doug cutting lucene(海量数据搜索) -----> nutch (海量数据抓取)-----> 海量数据存储和海量数据计算问题? 参考: https://www.linkedin.com