HDFS

Linux操作系统简介2019.7.30

时光毁灭记忆、已成空白 提交于 2020-02-08 01:11:56
1.推荐两本书《数学之美》、《文明之光》 2.数据存储:磁盘(少量数据)、SAN、NAS、DAS三种架构(共享存储架构,用于云计算方向的运营运维)、分布式存储架构(运用于大数据的数据处理,例如HDFS)     HDFS——H(Hsdoop);D(定义);FS(系统)。共同组成HDFS分布式文件系统,只用于存储。  系统:linux操作系统  算法:map-reduces的数据处理集群(将海量数据按一定方式修改为键值关系)     通过数学+python=算法     数据可视化 3.IT行业的两个方向:运维、开发   运维:Linux操作系统(以windows为系统的——桌面工程师)       Linux运维(web架构)深入学习架构可搭配自己的网站       虚拟化(KVM或XEN)—openstack—docker(管理器k8s)—应用(云计算方向)       Hadoop+Java=大数据方向              spark(必须学scala语言)              HDFS分布式存储              map-reduces数据处理              Hive(必须学Sql语言)              Zookeeper   开发:计算机语言(最早的机械语言Basic语言)     C语言(最接近汇编语言的高级语言,一次编辑

IT知识架构

こ雲淡風輕ζ 提交于 2020-02-08 00:55:07
一、IT知识架构 1.数据存储(磁盘 ) (1)SAN架构、NAS架构、DAS架构(专门将数据存储于磁盘阵列,属于共享存储架构,一般用于云计算、运维) (2)HDFS(分布式存储架构,只解决数据存储);集群(应用) HDFS:Hadoop的分布式系统 H:Hadoop D:定义 FS:系统 2.系统:linux系统 3.算法 (1)map-reduces的数据处理集群:它是将海量数据按照一定的方式修改为键值关系(key-value) (2)HDFS+map-reduces=Hadoop集群(运行于linux上的高性能集群) (3)通过数学(统计学)+Python=算法 (4)数据可视化 4.IT的工作方向:运维、开发 运维 :linux操作系统(Windows-桌面工程师) (1)linux运维、Web架构、搭建自己的网站 (2)虚拟化KVM/XEN、openstack、docker(k8s) (3)Hadoop(大数据)、Hadoop+JAVA=大数据存储方向(HDFS、map-reduces、Hive sql、zookeeper、spark、scala) 开发 :计算机语言 (1)Basic是早期的机械语言 (2)C语言、c++语言是最接近汇编语言的高级语言用于驱动开发、系统开发、嵌入式开发(写板子) (3)驱动程序:需要转换各个厂家之间的指令集,让厂家设备之间互通 前端:Js

centos7搭建hadoop2.10高可用(HA)

萝らか妹 提交于 2020-02-08 00:08:47
公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址: https://hive.apache.org/downloads.html 找到自己hadoop对应的版本下载安装,我这里下载的是 apache-hive-2.3.6-bin.tar.gz 2.安装hive,将安装包解压到/opt/soft下,并建立软链接 tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/soft/ cd /opt/soft mv apache-hive-2.3.6-bin hive-2.3.6 ln -s hive-2.3.6 hive 3.配置环境变量/etc/profile vim /etc/profile#hive export HIVE_HOME=/opt/soft/hive export PATH=$PATH:$HIVE_HOME/bin 保存后别忘记编译一下 source /etc/profile 4.配置hive配置文件,hive元数据默认存储到derby数据库中,我们这里使用mysql来存储,hive-site.xml配置信息较多建议下载到windows下修改,然后再传上去

通过docker镜像建立hdfs与spark集群

自作多情 提交于 2020-02-07 11:33:31
在vscode中,安装xml-tools后按 Cltr-Alt-L 可以格式化xml RUN apt install openjdk-8* -y ,jdk路径为 export JAVA_HOME = "/usr/lib/jvm/java-8-openjdk-amd64" 获取某个容器的ip import json import os from pathlib import Path if __name__ == "__main__" : data = json . loads ( os . popen ( 'docker inspect 4617c4e69001' ) . read ( ) ) ip = data [ 0 ] [ "NetworkSettings" ] [ "IPAddress" ] print ( ip ) 给centos的阿里云安装Hadoop root登录的错误解决 WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP 解决 ttyname failed: Inappropriate ioctl for device 问题 awk用法之:删除行 hadoop multi node cluster 安装 scala

启动hive出错

巧了我就是萌 提交于 2020-02-07 09:10:48
问题: 启动hive 出现Caused by: java.net.ConnectException: Call From hadoop-03/192.168.23.203 to hadoop-01:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 原因: hive 运行依赖hdfs 的,所以要启动hdfs 解决: 启动hdfs 集群 来源: CSDN 作者: nancy小心心 链接: https://blog.csdn.net/weixin_43548518/article/details/103988702

sqoop安装和使用

一个人想着一个人 提交于 2020-02-07 00:51:50
sqoop安装 sqoop镜像: http://mirror.bit.edu.cn/apache/sqoop/ https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/ http://archive.apache.org/dist/ #更多历史版本 本教程: hadoop2.7.5 hdfs导入导出均成功 hbase2.1.8 不能导出到mysql,能导入到hbase hive2.3.6 导入导出均成功 1.解压、添加环境变量 把sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz上传到linux的/opt/目录下,并解压。 [root@master opt]# tar -zxvf ./ sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz #解压文件到当前/opt目录 [root@master opt]# mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop #将文件夹名改为sqoop 添加环境变量: [root@master opt]# vi ~/.bash_profile 添加如下代码: export SQOOP_HOME=/opt/sqoop export PATH=$SQOOP_HOME/bin:$PATH source ~/.bash_profile #立即生效

Hadoop——HDFS的Java API操作

心已入冬 提交于 2020-02-06 03:35:18
HDFS的Java API操作 一、HDFS客户端环境准备 1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径 2)配置HADOOP_HOME环境变量和path路径 二、HDFS的API操作 新建Maven工程并添加依赖 < dependencies > < dependency > < groupId > junit </ groupId > < artifactId > junit </ artifactId > < version > RELEASE </ version > </ dependency > < dependency > < groupId > org.apache.logging.log4j </ groupId > < artifactId > log4j-core </ artifactId > < version > 2.8.2 </ version > </ dependency > < dependency > < groupId > org.apache.hadoop </ groupId > < artifactId > hadoop-common </ artifactId > < version > 2.7.2 </ version > </ dependency > < dependency > <

2.Hadoop_HDFS1.x_伪分布式搭建

跟風遠走 提交于 2020-02-06 02:54:27
环境 CentOS 6.5 Apache Hadoop 2.6.5 JDK 7 (Hadoop3.0以上需要JDK8) hadoop-2.6.5.tar.gz 搭建步骤 参考官方文档: https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 安装jdk7 # 安装 rpm -i jdk-7u67-linux-x64.rpm whereis java # 配置环境变量 vi + /etc/profile # 添加下面代码到profile 末尾 export JAVA_HOME = /usr/java/jdk1.7.0_67 PATH = $PATH : $JAVA_HOME /bin # 使profile生效 . /etc/profile # 验证是否配置成功 jps 设置ssh免密钥登陆 Now check that you can ssh to the localhost without a passphrase: $ ssh localhost If you cannot ssh to localhost without a passphrase, execute the following

3.Hadoop_HDFS1.x_全分布式搭建

試著忘記壹切 提交于 2020-02-06 00:23:15
环境 CentOS 6.5 Apache Hadoop 2.6.5 JDK 7 (Hadoop3.0以上需要JDK8) hadoop-2.6.5.tar.gz 准备工作 准备4台虚拟机 node01、node02、node03、node04 检查虚拟机时间是否同步 检查/etc/sysconfig/network 中 HOSTNAME是否与上面一致 检查/etc/hosts 文件是否设置,是否一致 检查 /etc/sysconfig/selinux中 SELINUX=disabled 检查防火墙是否关闭 架构说明 node01: nameNode( NN ) node02: secondaryNameNode( SNN )、dateNode( DN ) node03: dateNode( DN ) node04: dateNode( DN ) 主节点部署 安装jdk7 # 安装 rpm -i jdk-7u67-linux-x64.rpm 设置ssh免密钥登陆,并分发 # 使用ssh本地登录,如果才会有.ssh文件 ssh localhost # 切换到家目录 cd # 查看是否有.ssh 文件 并进入 ll -a cd ~/.ssh/ # 生成id dsa 公钥 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa #

4.Hadoop_HDFS2.x_高可用搭建

☆樱花仙子☆ 提交于 2020-02-05 23:36:45
架构说明 HDFS 2.x HA HDFS High Availability Using the Quorum Journal Manager 搭建说明 虚拟机 NN-1 NN-2 DN ZK ZKFC JNN node01 * * * node02 * * * * * node03 * * * node04 * * 搭建步骤 官方文档: https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 安装jdk、hadoop,并配置环境变量 设置ssh免密钥登录,node01、node02 相互免密钥访问。 通过官方文档说明配置 hdfs-site.xml 文件和 core-site.xml Configuration details To configure HA NameNodes, you must add several configuration options to your hdfs-site.xml configuration file. The order in which you set these configurations is unimportant, but the values you choose for