HDFS | 易学教程

大数据学习路线

阅读更多关于大数据学习路线

大数据处理从hadoop开始经过了几年的发展，生态越来越丰富，也越来越重要。就从目前的各个招聘网站来看也是薪资最高的。但是对于想进入大数据方面的开发人员从何处学习呢？我在网络收集了一些相关的资源，希望可以帮助到大家。大数据处理流程与应用一、Github上的学习资源BigData-Notes Github地址 : https://github.com/heibaiying/BigData-Notes 这个github上的资源是最为丰富的。该资源中详细的介绍了大数据学习的各个方面。从大数据收集、存储、分析、实时计算、还有其他相关的辅助技术。 1、数据收集：Flume 、Logstash、Kibana 2、数据存储：Hadoop HDFS 、KFS、GFS 3、数据分析：Hadoop MapReduce、Spark、Flink、Storm 4、实时计算：Spark、Flink、Storm 大数据学习路线图二、Flink实时计算框架flink-learning Github地址 :https://github.com/zhisheng17/flink-learning 该资源介绍了flink相关的知识点，同时也包含与各种中间件集成的例子。是个不错的学习资源。总之学习大数据要先学会相关的开发语言。目前大数据相关的开发语言Java、Scala。另外就是要知道相关的大数据收集相关的框架了

【Hadoop学习之HDFS】_06HDFS的shell操作

阅读更多关于【Hadoop学习之HDFS】_06HDFS的shell操作

一、基本语法 bin/hadoop fs 具体命令 #或者 bin/hdfs dfs 具体命令注意：其中 dfs 是 fs 的实现类二、命令大全 [ hadoop@SZMaster01 hadoop-2.8.3 ] $ bin/hadoop fs Usage: hadoop fs [ generic options ] [ -appendToFile < localsrc > .. . < dst > ] [ -cat [ -ignoreCrc ] < src > .. . ] [ -checksum < src > .. . ] [ -chgrp [ -R ] GROUP PATH .. . ] [ -chmod [ -R ] < MODE [ ,MODE ] .. . | OCTALMODE > PATH .. . ] [ -chown [ -R ] [ OWNER ] [ : [ GROUP ] ] PATH .. . ] [ -copyFromLocal [ -f ] [ -p ] [ -l ] [ -d ] < localsrc > .. . < dst > ] [ -copyToLocal [ -f ] [ -p ] [ -ignoreCrc ] [ -crc ] < src > .. . < localdst > ] [ -count [ -q ] [ -h ]

2020年寒假假期总结0201

阅读更多关于 2020年寒假假期总结0201

　　使用Sqoop将mysql数据传到hive 　　系统环境：hadoop2.65，mysql5.7.28，sqoop1.47，hive1.2.2，虚拟机centos7，物理机windows10 　　注意点：安装sqoop不要将目录设在hadoop下面，否则在运行下面命令时会发生找不到jar包的问题，我估计是系统将hadoop的lib目录认为成了sqoop的lib目录了。因为在我把相应的jar包放在hadoop的lib文件下时就可以通过，由于有很多jar包，所以一个jar找到了，又会有一个jar包找不到，所以建议不要放在hadoop目录下。　　操作要求：将物理机的mysql数据转到虚拟机的mysql，然后使用sqoop将虚拟机的mysql转到hive中。　　1.在物理机中使用Navicat的导出向导，获取sql文件，利用里面的建表语句，在虚拟机的mysql中建表，需要注意的是，linux的建表语句和windows有些许差异，比如：在编码的改动，需要将原来的编码utf8mb4_0900_ai_ci改成utf8_general_ci，utf8mb4改成utf8。　　2.然后利用传输工具将sql文件传给虚拟机，然后虚拟机开启mysql，使用source命令调用sql文件，然后执行文件将所有数据插入mysql中。　　3.然后我们在hive中创建相应的表

centos7 hadoop+hive 安装

阅读更多关于 centos7 hadoop+hive 安装

准备四台虚拟机虚拟机安装 1.创建新虚拟机 2.点击典型安装 ( 推荐 ) 3.选择中文，点击自己分区 # 分区配置（JD使用） /boot 200M swap 512M # 本机内存不够用了，用swap / # 根目录 4.配置其它，如下图更新yum yum install update -y 四台主机的ip 一主三从 172.20.10.9 密码：hadoop01 对应的虚拟机 hadoop01 172.20.10.10 密码：hadoop02 对应的虚拟机 hadoop02 172.20.10.11 密码：hadoop03 对应的虚拟机 hadoop03 172.20.10.12 密码：hadoop04 对应的虚拟机 hadoop04 # 重新设置root的密码 passwd root hadoop安装 https://www.cnblogs.com/shireenlee4testing/p/10472018.html 配置DNS 每个节点都配置 vim /etc/hosts 172.20.10.9 hadoop01 172.20.10.10 hadoop02 172.20.10.11 hadoop03 172.20.10.12 hadoop04 关闭防火墙 # 关闭防火墙 systemctl stop firewalld # 关闭自启动 systemctl

hadoop入门程序

阅读更多关于 hadoop入门程序

首先复习一下hadoop中hdfs常用的命令 /** * hadoop fs -mkdir 创建HDFS目录 * hadoop fs -ls 列出HDFS目录 * hadoop fs -copyFromLocal 使用-copyFromLocal 复制本地（local）文件到HDFS * hadoop fs -put 使用-put 复制本地（local）文件到HDFS * hadoop fs -cat 列出HDFS目录下的文件内容 * hadoop fs -copyToLocal * 使用-copyToLocal 将HDFS上文件复制到本地（local） * hadoop fs -get 使用-get 将HDFS上文件复制到本地（local） * hadoop fs -cp 复制HDFs文件 * hadoop fs -rm 删除HDFS文件 */ 一、maven配置 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven

Hive索引

阅读更多关于 Hive索引

1.首先创建表 create table user( id int, name string, address string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ STORED AS TEXTFILE; 2.创建索引 create index user_index on table user(id) as ‘org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler’ with deferred rebuild idxproperties(‘creator’ = ‘Alex’,‘create_at’ = ‘sometimes’) in table user_index_table; – 生成user_index_table一张额外的表，该表里面包括索引字段，以及该值所对应的HDFS文件路径，和该值在文件中的偏移量。 alter index user_index on user rebuild; 这样就对user表加了索引了，索引字段为id。 3.删除索引 drop index [if exists] user_index on user; 4.加载索引数据 alter index user_index on user [partition dt] rebuild;

大数据随笔

阅读更多关于大数据随笔

hadoop2.x启动步骤、 1：首先我们要先启动zookeeper。 zkServer.sh start 2：格式化zkfc hdfs zkfc -formatZK 3：启动journalnode （ namenode的同步数据的单独的进程） hadoop-daemon.sh start journalnode 4：格式化namenode（不启动第三步的话，在namenode的初始化会报错的） 5：启动 hadoop集群。 start-all.sh 6：在主节点中取出hadoop的工作目录中的下的current目录复制到要 7： —————————————————————————————————————— webui界面查看该集群的数据节点是否起来了。 hostname+50070 如我的webui地址为192.168.43.37:50070 192.168.43.37为我集群的组节点如下图所示注意三个数据节点的last contact参数是不会超过3的如果超过了3说明该数据节点是有问题的。一般是在0到2之间。（不断的刷新这个页面，观察这个三个数据点的last contact的数值。） webui界面下也可以查看hadfs中存储的情况。如下我们可以可以清楚查看文件目录和文件的大小及相关的权限，副本数。如下图我们查看一下 hdfs系统中test

Flume-采集目录到HDFS

阅读更多关于 Flume-采集目录到HDFS

需求某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去思路根据需求，首先定义以下3大要素 1. 数据源组件，即source ——监控文件目录 : spooldir 1. 监视一个目录，只要目录中出现新文件，就会采集文件中的内容 2. 采集完成的文件，会被agent自动添加一个后缀：COMPLETED 3. 所监视的目录中不允许重复出现相同文件名的文件 2. 下沉组件，即sink——HDFS文件系统 : hdfs sink 3. 通道组件，即channel——可用ﬁle channel 也可以用内存channel cd /usr/flume/conf mkdir /usr/dirfile vim spooldir.conf #name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source ##注意：不能往监控目中重复丢同名文件 a1.sources.r1.type = spooldir #conf a1.sources.r1.spoolDir = /usr/dirfile #所监控的文件夹 a1.sources.r1.fileHeader = true # Describe

day_03小笔记

阅读更多关于 day_03小笔记

HDFS的API操作 1.准备工作：启动集群：start-all.sh 登录 http://hdp-1:50070/ 2.在idea里从hdfs下载文件到本地磁盘 package com.zpark.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.Test; import java.io.File; import java.io.IOException; import java.net.URI; public class HdfsClient { //如果这个上传成功了，说明hadoop环境配置成功 // 首先申请获得资源 // URI 统一资源标志符 @Test public void put()throws IOException,InterruptedException{ // FileSystem fileSystem =FileSystem.get(URI.create("hdfs://hdp-1:9000"),new Configuration(),"root"); // fileSystem.copyFromLocalFile(new

WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HAD...

阅读更多关于 WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HAD...

在修改start-dfs.sh，stop-dfs.sh文件后，启动 HDFS 守护进程，出现警告信息： WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER. 解决办法：把修改start-dfs.sh，stop-dfs.sh文件，如下代码： HDFS_DATANODE_USER=root HADOOP_SECURE_DN_USER=hdfs HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root 改为，如下代码： HDFS_DATANODE_USER=root HDFS_DATANODE_SECURE_USER=hdfs HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root 来源： CSDN 作者： daqiang012 链接： https://blog.csdn.net/daqiang012/article/details/104109578

订阅 HDFS