HDFS

大数据学习路线

心不动则不痛 提交于 2020-02-02 03:16:50
大数据处理从hadoop开始经过了几年的发展,生态越来越丰富,也越来越重要。就从目前的各个招聘网站来看也是薪资最高的。但是对于想进入大数据方面的开发人员从何处学习呢?我在网络收集了一些相关的资源,希望可以帮助到大家。 大数据处理流程与应用 一、Github上的学习资源BigData-Notes Github地址 : https://github.com/heibaiying/BigData-Notes 这个github上的资源是最为丰富的。该资源中详细的介绍了大数据学习的各个方面。从大数据收集、存储、分析、实时计算、还有其他相关的辅助技术。 1、数据收集:Flume 、Logstash、Kibana 2、数据存储:Hadoop HDFS 、KFS、GFS 3、数据分析:Hadoop MapReduce、Spark、Flink、Storm 4、实时计算:Spark、Flink、Storm 大数据学习路线图 二、Flink实时计算框架flink-learning Github地址 :https://github.com/zhisheng17/flink-learning 该资源介绍了flink相关的知识点,同时也包含与各种中间件集成的例子。是个不错的学习资源。 总之学习大数据要先学会相关的开发语言。目前大数据相关的开发语言Java、Scala。另外就是要知道相关的大数据收集相关的框架了

【Hadoop学习之HDFS】_06HDFS的shell操作

与世无争的帅哥 提交于 2020-02-02 02:25:10
一、基本语法 bin/hadoop fs 具体命令 #或者 bin/hdfs dfs 具体命令 注意:其中 dfs 是 fs 的实现类 二、命令大全 [ hadoop@SZMaster01 hadoop-2.8.3 ] $ bin/hadoop fs Usage: hadoop fs [ generic options ] [ -appendToFile < localsrc > .. . < dst > ] [ -cat [ -ignoreCrc ] < src > .. . ] [ -checksum < src > .. . ] [ -chgrp [ -R ] GROUP PATH .. . ] [ -chmod [ -R ] < MODE [ ,MODE ] .. . | OCTALMODE > PATH .. . ] [ -chown [ -R ] [ OWNER ] [ : [ GROUP ] ] PATH .. . ] [ -copyFromLocal [ -f ] [ -p ] [ -l ] [ -d ] < localsrc > .. . < dst > ] [ -copyToLocal [ -f ] [ -p ] [ -ignoreCrc ] [ -crc ] < src > .. . < localdst > ] [ -count [ -q ] [ -h ]

2020年寒假假期总结0201

别等时光非礼了梦想. 提交于 2020-02-01 20:45:31
  使用Sqoop将mysql数据传到hive   系统环境:hadoop2.65,mysql5.7.28,sqoop1.47,hive1.2.2,虚拟机centos7,物理机windows10    注意点:安装sqoop不要将目录设在hadoop下面,否则在运行下面命令时会发生找不到jar包的问题,我估计是系统将hadoop的lib目录认为成了sqoop的lib目录了。因为在我把相应的jar包放在hadoop的lib文件下时就可以通过,由于有很多jar包,所以一个jar找到了,又会有一个jar包找不到,所以建议不要放在hadoop目录下。   操作要求:将物理机的mysql数据转到虚拟机的mysql,然后使用sqoop将虚拟机的mysql转到hive中。   1.在物理机中使用Navicat的导出向导,获取sql文件,利用里面的建表语句,在虚拟机的mysql中建表,需要注意的是,linux的建表语句和windows有些许差异,比如:在编码的改动,需要将原来的编码utf8mb4_0900_ai_ci改成utf8_general_ci,utf8mb4改成utf8。   2.然后利用传输工具将sql文件传给虚拟机,然后虚拟机开启mysql,使用source命令调用sql文件,然后执行文件将所有数据插入mysql中。   3.然后我们在hive中创建相应的表

centos7 hadoop+hive 安装

旧时模样 提交于 2020-02-01 10:55:15
准备四台虚拟机 虚拟机安装 1.创建新虚拟机 2.点击典型安装 ( 推荐 ) 3.选择中文,点击自己分区 # 分区配置(JD使用) /boot 200M swap 512M # 本机内存不够用了,用swap / # 根目录 4.配置其它,如下图 更新yum yum install update -y 四台主机的ip 一主三从 172.20.10.9 密码:hadoop01 对应的虚拟机 hadoop01 172.20.10.10 密码:hadoop02 对应的虚拟机 hadoop02 172.20.10.11 密码:hadoop03 对应的虚拟机 hadoop03 172.20.10.12 密码:hadoop04 对应的虚拟机 hadoop04 # 重新设置root的密码 passwd root hadoop安装 https://www.cnblogs.com/shireenlee4testing/p/10472018.html 配置DNS 每个节点都配置 vim /etc/hosts 172.20.10.9 hadoop01 172.20.10.10 hadoop02 172.20.10.11 hadoop03 172.20.10.12 hadoop04 关闭防火墙 # 关闭防火墙 systemctl stop firewalld # 关闭自启动 systemctl

hadoop入门程序

巧了我就是萌 提交于 2020-02-01 09:08:34
首先复习一下hadoop中hdfs常用的命令 /** * hadoop fs -mkdir 创建HDFS目录 * hadoop fs -ls 列出HDFS目录 * hadoop fs -copyFromLocal 使用-copyFromLocal 复制本地(local)文件到HDFS * hadoop fs -put 使用-put 复制本地(local)文件到HDFS * hadoop fs -cat 列出HDFS目录下的文件内容 * hadoop fs -copyToLocal * 使用-copyToLocal 将HDFS上文件复制到本地(local) * hadoop fs -get 使用-get 将HDFS上文件复制到本地(local) * hadoop fs -cp 复制HDFs文件 * hadoop fs -rm 删除HDFS文件 */ 一、maven配置 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven

Hive索引

只愿长相守 提交于 2020-02-01 09:04:32
1.首先创建表 create table user( id int, name string, address string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ STORED AS TEXTFILE; 2.创建索引 create index user_index on table user(id) as ‘org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler’ with deferred rebuild idxproperties(‘creator’ = ‘Alex’,‘create_at’ = ‘sometimes’) in table user_index_table; – 生成user_index_table一张额外的表,该表里面 包括索引字段,以及该值所对应的HDFS文件路径,和该值在文件中的偏移量。 alter index user_index on user rebuild; 这样就对user表加了索引了,索引字段为id。 3.删除索引 drop index [if exists] user_index on user; 4.加载索引数据 alter index user_index on user [partition dt] rebuild;

大数据随笔

六月ゝ 毕业季﹏ 提交于 2020-01-31 04:16:55
hadoop2.x启动步骤、 1:首先我们要先启动zookeeper。 zkServer.sh start 2:格式 化zkfc hdfs zkfc -formatZK 3:启动journalnode ( namenode的同步数据的 单独的进程) hadoop-daemon.sh start journalnode 4: 格式化namenode(不启动第三步的话,在namenode的初始化会报错 的) 5:启动 hadoop集群。 start-all.sh 6: 在主节点中取出hadoop的工作目录中的下的current目录复制到要 7: —————————————————————————————————————— webui界面查看 该集群的数据节点是否起来了。 hostname+50070 如我的webui地址为192.168.43.37:50070 192.168.43.37为我集群的组节点 如下图所示 注意三个数据节点的last contact参数是不会超过3的 如果超过了3说明该数据节点是有问题的。一般是在0到2之间。(不断的刷新这个页面,观察这个三个数据点的last contact的数值。) webui界面下也可以查看hadfs中存储的情况。如下 我们可以 可以清楚查看文件 目录和 文件 的大小及相关的权限,副本数。 如下图 我们查看一下 hdfs系统中test

Flume-采集目录到HDFS

这一生的挚爱 提交于 2020-01-30 09:32:19
需求 某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 思路 根据需求,首先定义以下3大要素 1. 数据源组件,即source ——监控文件目录 : spooldir 1. 监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2. 采集完成的文件,会被agent自动添加一个后缀:COMPLETED 3. 所监视的目录中不允许重复出现相同文件名的文件 2. 下沉组件,即sink——HDFS文件系统 : hdfs sink 3. 通道组件,即channel——可用file channel 也可以用内存channel cd /usr/flume/conf mkdir /usr/dirfile vim spooldir.conf #name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source ##注意:不能往监控目中重复丢同名文件 a1.sources.r1.type = spooldir #conf a1.sources.r1.spoolDir = /usr/dirfile #所监控的文件夹 a1.sources.r1.fileHeader = true # Describe

day_03小笔记

≡放荡痞女 提交于 2020-01-29 22:18:32
HDFS的API操作 1.准备工作: 启动集群:start-all.sh 登录 http://hdp-1:50070/ 2.在idea里从hdfs下载文件到本地磁盘 package com.zpark.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.Test; import java.io.File; import java.io.IOException; import java.net.URI; public class HdfsClient { //如果这个上传成功了,说明hadoop环境配置成功 // 首先申请获得资源 // URI 统一资源标志符 @Test public void put()throws IOException,InterruptedException{ // FileSystem fileSystem =FileSystem.get(URI.create("hdfs://hdp-1:9000"),new Configuration(),"root"); // fileSystem.copyFromLocalFile(new

WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HAD...

孤者浪人 提交于 2020-01-29 22:17:57
在修改start-dfs.sh,stop-dfs.sh文件后,启动 HDFS 守护进程,出现警告信息: WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER. 解决办法: 把修改start-dfs.sh,stop-dfs.sh文件,如下代码: HDFS_DATANODE_USER=root HADOOP_SECURE_DN_USER=hdfs HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root 改为,如下代码: HDFS_DATANODE_USER=root HDFS_DATANODE_SECURE_USER=hdfs HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root 来源: CSDN 作者: daqiang012 链接: https://blog.csdn.net/daqiang012/article/details/104109578