HDFS | 易学教程

Linux操作系统简介2019.7.30

阅读更多关于 Linux操作系统简介2019.7.30

1.推荐两本书《数学之美》、《文明之光》 2.数据存储：磁盘（少量数据）、SAN、NAS、DAS三种架构（共享存储架构，用于云计算方向的运营运维）、分布式存储架构（运用于大数据的数据处理，例如HDFS）　　　　HDFS——H（Hsdoop）；D（定义）；FS（系统）。共同组成HDFS分布式文件系统，只用于存储。　系统：linux操作系统　算法：map-reduces的数据处理集群（将海量数据按一定方式修改为键值关系）　　　　通过数学+python=算法　　　　数据可视化 3.IT行业的两个方向：运维、开发　　运维：Linux操作系统（以windows为系统的——桌面工程师）　　　　　　Linux运维（web架构）深入学习架构可搭配自己的网站　　　　　　虚拟化（KVM或XEN）—openstack—docker（管理器k8s）—应用（云计算方向）　　　　　　Hadoop+Java=大数据方向　　　　　　　　　　　　　spark（必须学scala语言）　　　　　　　　　　　　　HDFS分布式存储　　　　　　　　　　　　　map-reduces数据处理　　　　　　　　　　　　 Hive（必须学Sql语言）　　　　　　　　　　　　　Zookeeper 　　开发：计算机语言（最早的机械语言Basic语言）　　　　C语言（最接近汇编语言的高级语言，一次编辑

IT知识架构

阅读更多关于 IT知识架构

一、IT知识架构 1.数据存储（磁盘）（1）SAN架构、NAS架构、DAS架构（专门将数据存储于磁盘阵列，属于共享存储架构，一般用于云计算、运维）（2）HDFS（分布式存储架构，只解决数据存储）；集群（应用） HDFS：Hadoop的分布式系统 H：Hadoop D:定义 FS：系统 2.系统：linux系统 3.算法（1）map-reduces的数据处理集群：它是将海量数据按照一定的方式修改为键值关系（key-value）（2）HDFS+map-reduces=Hadoop集群（运行于linux上的高性能集群）（3）通过数学（统计学）+Python=算法（4）数据可视化 4.IT的工作方向：运维、开发运维：linux操作系统（Windows-桌面工程师）（1）linux运维、Web架构、搭建自己的网站（2）虚拟化KVM/XEN、openstack、docker（k8s）（3）Hadoop（大数据）、Hadoop+JAVA=大数据存储方向（HDFS、map-reduces、Hive sql、zookeeper、spark、scala）开发：计算机语言（1）Basic是早期的机械语言（2）C语言、c++语言是最接近汇编语言的高级语言用于驱动开发、系统开发、嵌入式开发（写板子）（3）驱动程序：需要转换各个厂家之间的指令集，让厂家设备之间互通前端：Js

centos7搭建hadoop2.10高可用(HA)

阅读更多关于 centos7搭建hadoop2.10高可用(HA)

公司建立数仓，hive是必不可少的，hive是建立在hadoop基础上的数据库，前面已经搭建起了hadoop高可用，要学习hive，先从搭建开始，下面梳理一下hive搭建过程 1.下载hive安装包，下载地址： https://hive.apache.org/downloads.html 找到自己hadoop对应的版本下载安装，我这里下载的是 apache-hive-2.3.6-bin.tar.gz 2.安装hive，将安装包解压到/opt/soft下，并建立软链接 tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/soft/ cd /opt/soft mv apache-hive-2.3.6-bin hive-2.3.6 ln -s hive-2.3.6 hive 3.配置环境变量/etc/profile vim /etc/profile#hive export HIVE_HOME=/opt/soft/hive export PATH=$PATH:$HIVE_HOME/bin 保存后别忘记编译一下 source /etc/profile 4.配置hive配置文件，hive元数据默认存储到derby数据库中，我们这里使用mysql来存储，hive-site.xml配置信息较多建议下载到windows下修改，然后再传上去

通过docker镜像建立hdfs与spark集群

阅读更多关于通过docker镜像建立hdfs与spark集群

在vscode中，安装xml-tools后按 Cltr-Alt-L 可以格式化xml RUN apt install openjdk-8* -y ，jdk路径为 export JAVA_HOME = "/usr/lib/jvm/java-8-openjdk-amd64" 获取某个容器的ip import json import os from pathlib import Path if __name__ == "__main__" : data = json . loads ( os . popen ( 'docker inspect 4617c4e69001' ) . read ( ) ) ip = data [ 0 ] [ "NetworkSettings" ] [ "IPAddress" ] print ( ip ) 给centos的阿里云安装Hadoop root登录的错误解决 WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP 解决 ttyname failed: Inappropriate ioctl for device 问题 awk用法之：删除行 hadoop multi node cluster 安装 scala

启动hive出错

阅读更多关于启动hive出错

问题: 启动hive 出现Caused by: java.net.ConnectException: Call From hadoop-03/192.168.23.203 to hadoop-01:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 原因: hive 运行依赖hdfs 的,所以要启动hdfs 解决: 启动hdfs 集群来源： CSDN 作者： nancy小心心链接： https://blog.csdn.net/weixin_43548518/article/details/103988702

sqoop安装和使用

阅读更多关于 sqoop安装和使用

sqoop安装 sqoop镜像： http://mirror.bit.edu.cn/apache/sqoop/ https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/ http://archive.apache.org/dist/ #更多历史版本本教程： hadoop2.7.5 hdfs导入导出均成功 hbase2.1.8 不能导出到mysql，能导入到hbase hive2.3.6 导入导出均成功 1.解压、添加环境变量把sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz上传到linux的/opt/目录下，并解压。 [root@master opt]# tar -zxvf ./ sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz #解压文件到当前/opt目录 [root@master opt]# mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop #将文件夹名改为sqoop 添加环境变量： [root@master opt]# vi ~/.bash_profile 添加如下代码： export SQOOP_HOME=/opt/sqoop export PATH=$SQOOP_HOME/bin:$PATH source ~/.bash_profile #立即生效

Hadoop——HDFS的Java API操作

阅读更多关于 Hadoop——HDFS的Java API操作

HDFS的Java API操作一、HDFS客户端环境准备 1）根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径 2）配置HADOOP_HOME环境变量和path路径二、HDFS的API操作新建Maven工程并添加依赖 < dependencies > < dependency > < groupId > junit </ groupId > < artifactId > junit </ artifactId > < version > RELEASE </ version > </ dependency > < dependency > < groupId > org.apache.logging.log4j </ groupId > < artifactId > log4j-core </ artifactId > < version > 2.8.2 </ version > </ dependency > < dependency > < groupId > org.apache.hadoop </ groupId > < artifactId > hadoop-common </ artifactId > < version > 2.7.2 </ version > </ dependency > < dependency > <

2.Hadoop_HDFS1.x_伪分布式搭建

阅读更多关于 2.Hadoop_HDFS1.x_伪分布式搭建

环境 CentOS 6.5 Apache Hadoop 2.6.5 JDK 7 (Hadoop3.0以上需要JDK8) hadoop-2.6.5.tar.gz 搭建步骤参考官方文档： https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 安装jdk7 # 安装 rpm -i jdk-7u67-linux-x64.rpm whereis java # 配置环境变量 vi + /etc/profile # 添加下面代码到profile 末尾 export JAVA_HOME = /usr/java/jdk1.7.0_67 PATH = $PATH : $JAVA_HOME /bin # 使profile生效 . /etc/profile # 验证是否配置成功 jps 设置ssh免密钥登陆 Now check that you can ssh to the localhost without a passphrase: $ ssh localhost If you cannot ssh to localhost without a passphrase, execute the following

3.Hadoop_HDFS1.x_全分布式搭建

阅读更多关于 3.Hadoop_HDFS1.x_全分布式搭建

环境 CentOS 6.5 Apache Hadoop 2.6.5 JDK 7 (Hadoop3.0以上需要JDK8) hadoop-2.6.5.tar.gz 准备工作准备4台虚拟机 node01、node02、node03、node04 检查虚拟机时间是否同步检查/etc/sysconfig/network 中 HOSTNAME是否与上面一致检查/etc/hosts 文件是否设置，是否一致检查 /etc/sysconfig/selinux中 SELINUX=disabled 检查防火墙是否关闭架构说明 node01: nameNode( NN ) node02: secondaryNameNode（ SNN ）、dateNode( DN ） node03: dateNode( DN ） node04: dateNode( DN ）主节点部署安装jdk7 # 安装 rpm -i jdk-7u67-linux-x64.rpm 设置ssh免密钥登陆，并分发 # 使用ssh本地登录，如果才会有.ssh文件 ssh localhost # 切换到家目录 cd # 查看是否有.ssh 文件并进入 ll -a cd ~/.ssh/ # 生成id dsa 公钥 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa #

4.Hadoop_HDFS2.x_高可用搭建

阅读更多关于 4.Hadoop_HDFS2.x_高可用搭建

架构说明 HDFS 2.x HA HDFS High Availability Using the Quorum Journal Manager 搭建说明虚拟机 NN-1 NN-2 DN ZK ZKFC JNN node01 * * * node02 * * * * * node03 * * * node04 * * 搭建步骤官方文档： https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 安装jdk、hadoop，并配置环境变量设置ssh免密钥登录，node01、node02 相互免密钥访问。通过官方文档说明配置 hdfs-site.xml 文件和 core-site.xml Configuration details To configure HA NameNodes, you must add several configuration options to your hdfs-site.xml configuration file. The order in which you set these configurations is unimportant, but the values you choose for

订阅 HDFS